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推荐 序 
在 2013 年 的 中 国 大 数据 创新 峰会 上 ， 我 偶然 结识 了 作者 ， 期 间 聊 到 了 和 人工 智能 
和 机 器 学 习 的 话题 ， 被 作者 的 渊博 知识 所 折服 ， 慢 慢 地 结 下 工 深厚 的 友谊 。 时 间 一 watt 
Sepa el oy Me ee JE ANTS eT AY FL 
S)210008 DART, RHEA KEEPER EBL AN, AAXEON ENK 
来 ， 我 们 也 将 是 机 器 人 ， 同 机 器 人 互相 联系 。 


i 当时 我 在 吉林 大 学 读 研 三 ， 季 运 ee 
KR, — BBS AUER) ecg WA TNL BEN AKER 
aot te INES ALICE eee 
广 我 也 AWE) AL RN 同 ， 优化 创意 ae 
主 


的 
度 最 高 奖 ) BHAS. RVR, ETT AS 
WHA, CEH TUE TSO, AHEAD eS HO An 
人 员 ， 机 器 学 习 已 经 成 为 必 备 利 器 ， 掌 握 了 它 ， 就 等 于 站 在 
RETE BERNA GUL RA ORAN 


我 和 作者 认识 近 3 年 ， 同 时 也 是 《机 器 学 习 实 践 指 南 》 第 1 版 的 读者 ， 并 在 工作 之 余 
一 起 管理 《机 器 学 习 实 践 指南 》 的 读者 QQ 和 群 〈 群 号 : 192029861) ， 在 群 里 认识 了 
专注 机 器 学 习 的 朋友 和 学 者 。《 机 器 学 习 实 践 指南 》 第 1 版 主要 针对 初 、 中 级 读者 ， 
a 以 机 器 学 习 算 法 的 实践 应 用 为 主 ， 将 更 多 的 门外汉” 带 入 机 器 学 习 

让 更 多 拥有 机 器 学 习 理 论 却 无 法 下 手 的 朋友 掌握 机 器 学 习 实 践 思维 ， 轻 松 步 入 机 器 
TIMUR, SERIE EMIT TAP WARE, 一 且 形 成 了 适当 的 思维 方式 ， 很 多 工作 中 明 
技术 难题 轴 将 迎刃而解 ， 学 习 新 知识 的 速度 也 更 快 ， 因为 只 有 实践 与 理论 相 结 合 才 能 更 
精准 地 理解 知识 。 也 希望 对 机 器 学 习 有 兴趣 的 读者 能 从 中 受益 。 


《机 器 学 习 实践 指南 》 第 2 版 出 版 在 即 ， 我 高 兴 地 接受 了 作者 的 邀请 一 一 为 本 书写 推 
荐 序 。 第 2 版 比 第 1 版 增加 了 刘 多 的 案例 和 算法 解析 ， 全 书 详细 介绍 了 机 器 学 习 发 展 及 应 用 
前 景 、 科 学 a 7 aaa R 语 言 计 算 平 台 应 用 、 生 产 环 境 基础 、 统 计 
分 析 基 础 、 描 述 RMON. 假设 检验 与 回归 模型 案例 、 神经 网 络 、 统计 算法 、 EI 
BRIA, SVM, 回归 算法 、PCA 降 维 、 关 联 规则 、 聚 类 与 分 类 算法 、 数 据 拟 合 

例 、 图 像 算法 案例 、 机 器 视觉 案例 、 文本 分 类 案例 等 机 器 学 习 实 践 与 应 用 


第 2 版 致力 推动 机 器 学 习 理 他 在 国内 的 普及 和 应 用 ， 为 公司 T 多 的 商业 价值 ， 同 
时 ， 力 争 让 更 多 的 学 生 、 iT 工程 师 等 进入 人 工 知 9 能 相关 领域 ， 适 应 智能 时 代 工 作 的 需要 。 


最 后 ， 和 希望 大 家 喜欢 这 本 书 ， 进 而 从 中 受益 。 
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徐 培 治 
百度 在 线 网 络 技术 (北京 ) 有 限 公 司 
2016 年 3 月 于 北京 
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前 言 
为 什么 要 写 这 本 书 


随 着 全 球 第 三 次 工业 革命 的 迅 狐 发 展 ， 机 器 学 习 技 术 异 军 突起 ， 人 类 对 机 器 学 习 技 
术 的 研究 也 开辟 出 了 许多 全 新 的 应 用 领域 ， 这 使 智能 机 器 的 计算 能 力 和 可 定制 性 上 升 到 了 
一 个 新 的 层次 。 到 了 2015 年 ， 人 类 在 机 器 学 习 领 域 取得 了 一 系列 重大 的 突破 ， 这 项 技术 已 
无 声息 地 潜入 我 们 的 日 党 生活， 而 在 未 来 ， 机 器 学 习 也 将 拥抱 变化 ， 持 续 发 力 。 如 今 ， 
ARDURE IDRE A EENAA Misra ice faite 
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近年 来 ， 机 器 学 习 技 术 在 国外 得 到 了 海量 应 用 和 深入 发 展 。2015 年 11 月 ， 谷 歌 开源 
了 全 新 的 TensorFlow 机 器 学 习 系统 ， 该 系统 更 快 、 更 智能 ， 也 更 具有 弹性 。2015 年 1 月 ， 
机 器 学 习 平台 GraphLab 改 名 为 Dato， 并 获得 了 1850 万 美元 的 新 融资 (投资 方 为 Vulcan 
Capital. Opus Capital. New Enterprise Associates. Madrona Venture Group) ， 此 前 他 们 曾 
获得 680 万 关 元 的 融 2015 年 8 ，Facebook 推 出 了 “M"，Facebook 认 为 人 类 不 仅 会 回答 
AT# a 而 且 从 长 远 来 看 ， 人 类 也 会 帮助 改善 人 工 智能 技术 ，“M" 除 
了 能 做 到 回答 问题 查阅 信息 等 基本 功能 外 ， ie] LAE RIL AEST KE 
位 、 安 排 旅行 计划 等 操作 。 在 2015 年 12 月 召开 的 “2015 年 神经 信息 处 理 系统 ”(NIPS) 会 
议 上 ， MAEA DILRAJ T 202P RESER RAR R E S. 此 外 ， 微软 还 
宣布 ， 机 器 学 习 正在 成 为 Windows 10 的 一 部 分 : Skype 翻 详 可 以 将 口语 几乎 实时 地 翻译 成 
其 他 语言 ， 束 像 《 星 际 迷 航 》 中 的 通用 翻译 器 那样 ， 可 以 做 到 面对面 的 安 流 - Cortana 个 
人 数字 助理 在 与 用 户 的 互动 中 不 断 学 习 与 改进 ， 从 而 帮助 用 户 管理 日 历 、 跟 踪 快 递 ， 甚 至 
与 用 户 聊天 和 讲 笑话 ， 实 现 真 正 的 个 性 化 互动 体验 。Clutter 是 微软 Office 2016 的 成 员 ， 
peo) E AT LAR aD HARE GORD 户 来 说 最 重要 ， 并 自动 将 不 重要 的 邮件 重 定向 到 
T 独 的 文件 夹 中 ， PAS wade iy Gia al ee AGE 2015 年 9 月 ， 美 军 军队 医疗 中 心 指挥 
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> 将 Steve Jones 在 美军 陆军 的 一 次 会 议 上 发 言 表示 未 来 可 以 证 特 a CCB OK E 
美国 军 方 甚至 高 调 宣布 : ORR CALA BORG 可 能 不 是 人 ， 而 是 机 器 
为 智能 机 器 人 军团 将 代替 人 类 出 征 。 


EA, 机 器 学 习 掀起 了 技术 旦 新 的 八 潮 ， 知 能 技术 得 到 了 三 泛 的 普及 和 应 用 。 隶 
科学 院 的 新 松 机 器 人 目 动 化 公司 生产 了 智能 复合 型 机 器 人 ， 这 个 安装 了 眼睛 和 感 
智能 机 器 人 ， 可 以 在 车 间 里 自由 地 行走 并 十 分 精确 地 完成 任务 ， 当 其 他 工 位 人 手 
a J 他 还 会 主动 上 前 帮忙 ， 马 上 进入 角色 并 开始 工作 。 百 度 创造 和 完善 了 
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ane AN 搭建 了 一 个 能 容纳 万 亿 特 征 数据 的 、 分 钟 级 别 模型 更 新 的 、 高 效 

击 率 预 估 系 ; 为 进一步 深入 地 发 展 机 器 学 习 技 术 ， 百度 开始 研究 如 何 从 “机 器 

ee ; 此 外 ， 百 度 甚 至 在 2016 年 提出 ， 百 度 的 产品 和 服务 都 靠 机 器 学 
EKZ o 


ee 技术 在 国 四 外 的 seal 机 器 学 习 工 程 师 成 为 炙手可热 的 职位 。 现 
， 人 掌握 了 机 器 学 习 技 术 的 工程 师 将 成 为 各 大 IT 
高 的 职业 薪水 ， ls] RD EK 
的 公司 百度 、 阿 里 巴 腾讯 (俗称 BAT) 
paseo) MENA, 并 有 组 织 地 对 机 器 学 
大 公司 (包括 非 T 行 业 的 公司 也 提出 了 引 
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HIRS 习 研 发 工程 师 的 BR 


(ee, MLE NTH, JRC a HE ETAT BRI BE, 
HDF SCREEN FE SY DESI SDL IOS 32 ANDRE 
OME, HLA UL RESP S] SES (Ee BE MA ERARE TD BIRR A SAAC? AU 
SPRUE AAE EE EOL, RER BUR Stil. Sil 

MARA ERENCE BH MENEJ SE Be PO TE 
TDVERRIN. WERI IEAA ASR, UPEER AN BBR 






















































































wawa bbt. cam DENEA THE 
































一 番 。 和 希望 本 书 能 帮助 朋友 们 进入 机 器 学 习 的 精彩 世界 。 
读者 对 象 








开发 人 员 ， 在 理解 机 器 学 习 算法 的 基础 上， 调用 机 器 学 习 的 中 间 库 进行 开发 ,将 机 
学 习 应 用 于 各 种 场景 ， 如 数据 分 析 、 图 像 识 别 、 文 本 分 类 、 搜 索引 擎 、 中 ; 
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架构 师 。 适应 现代 云 计 算 平 台 的 发 展 Mee ee 
算法 应 用 在 大 规模 的 并 行 十 算 上 。 同 时 ， 机 器 学 习 算 法 是 大 数据 分 析 的 基础 ， 如 神经 网 
络 、SVM、 相 似 度 分 析 、 统 计 分 析 等 技术 。 


Oe ee BUN ale 人 类 对 机 器 学 习 的 研究 只 是 一 个 开始 ， 还 远 远 没有 结 

近年 来 ， 机 器 学 BATS 强劲 的 发 展 势头， 并 拥有 美好 的 发 展 前 景 ， 这 点 不 同 于 
某 些 软件 开发 全 Sis ore 架构 知识 。 掌 握 机 器 学 习 技 术 有 一 定 的 难度 ， 但 也 意味 
车， 掌握 机 俭 学 习 的 技术 就 能 获得 更 高 的 薪水 和 更 具 前 景 的 职业 。 



































如 何 阅读 本 书 











全 书 分 为 准备 篇 、 基 础 篇 、 统 计 分 析 实 战 篇 和 机 器 学 习 实战 篇 PUARE J SAE Or 
复杂 的 计算 理论 基础 之 E ER 多 门 数 学 学 科 。 抽 象 的 理论 加 上 成 堆 的 数学 公式 ， 给 
eS os 将 渴求 学 习 的 人 们 挡 在 了 门 外 。 针 对 这 种 情况 ， 本 书 力求 理 
中 





aap 























So ieee ee 注重 机 器 学 习 算法 的 实际 运用 ， 让 读者 更 好 地 明白 


aa el NLRB NEN SR RAPERE, P 
计算 平台 和 本 书 将 用 到 的 工程 计算 平台 ， 使 读者 消除 对 机 器 学 习 的 
ROE CARRIE BLA 1S UA AR. 


0 识 基 a a 7 介绍 计算 平台 的 开发 基本 知识 ， 
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nur “应 用 i 
图 ， 让 读者 对 
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将 针对 统计 分 析 实 战 和 机 器 学 习 实 战 两 个 部 分 帮助 读者 建立 -机 器 学 习 实 
平台 对 统计 分 析 及 机 器 学 习 黎 法 进行 实现 和 应 用 ， 同 时 还 会 附 上 效果 
学 习 的 基本 应 用 和 理论 基础 有 一 个 形象 的 理解 。 
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勘误 和 支持 














由 于 作者 的 水 平 有 限 ， 编 号 的 时 间 也 很 仓促 ， 书 中 难免 会 出 现 一 些 错误 或 不 准确 的 
地 方 ， 不 妥 之 处 恳请 读者 批评 指正 。 如 果 允 到 任何 问题 ， 或 有 更 多 的 宝贵 意见 ， 欢 迎 发 送 
als 8 FRAG imyhas aspl@myhaspl. -com， 很 期 待 能 够 听 到 您 的 真 涩 反馈 。 此 外 ， 本 书 的 代 
码 及 相关 资源 (包括 思考 题 中 涉及 的 数据 等 ) 的 下 载 地 址 
JJ: https://yunpan.cn/cYjhBYGLKkKTb (提取 码 : 65ad) 。 
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首先 我 要 感 ao UER 敌 》 及 其 主角 威 尔 :史密斯 ， 这 位 美国 演员 主演 了 
来 融 门 》 《 拳 王 (ARE) CRRA (EKA) RA, 
UAN EV VAY A WEW ARR] ERE AER E 
而 TERA EI SATA ORES 我 相信 《机 械 公 政 》 描 述 的 以 下 场 
一 定 能 实现 : 
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公元 2035 年 ， 智 能 型 机 器 人 已 被 人 类 广泛 
机 器 人 在 各 个 领域 扮演 着 日 次 重要 
制 ， 人 类 对 这 些 能 够 胜任 各 种 工作 
为 各 个 家 庭 的 组 成 成 员 。 


在 此 ， 我 衷心 地 感谢 机 械 工 业 出 版 社 华章 公司 的 编辑 杨 福 川 老师 和 策划 编辑 杨 绣 国 
老师 ， 由 于 他 们 的 馒 力 和 远见 ， 让 我 顺利 地 完成 了 全 部 书稿 。 最 后 我 要 感谢 家 人 的 大 力 支 
持 和 无 私 奉献 ， 正 因为 有 他 们 的 关心 和 照顾 ， 我 才 有 足够 的 时 间 和 精力 来 完成 本 书 的 撰写 


FUR, AE yb eT RU RE 
的 角色 。 而 由 于 众所周知 的 机 器 人 “三 去 则 ”的 限 
目 旺 元 恕 言 的 伙伴 充 注 信任 ， 它 从 中 的 祖 多 其 至 已 经 成 
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谨 以 此 书 ， 献 给 热爱 机 器 学 习 的 朋友 ， 以 及 喜欢 威 尔 . 史 密斯 的 影迷 。 
麦 好 (Myhaspl) 
2016 年 3 月 于 中 国 广东 
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第 1 章 ”机 器 学 习 发 展 及 应 用 前 景 


人 
fA, 各 如 体质 术 员 、 网 页 写 信息 


LINE 9 ， 和 各 一 阶段 
a Jeb ae 项 


前 期 多 以 程序 员 (“ 码 农 ”) 、 测试 工程 师 、 数 据 

; w A 软件 
一 阶段 对 于 拥有 丰富 技术 经 
a 因此 ， 很 多 人 将 目光 投 
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1.1 机 器 学 习 概述 


机 器 学 习作 为 一 门 多 领域 的 交叉 学 科 ， 在 近 上 20 年 里 芥 车 突出 。 机 器 学 习 涉 及 概率 
统计 学 、 微 积分 、 代数 学 、 算 ; 法 复杂 度 理论 门 学 科 。 通 过 可 以 让 计算 机 自动 “学 
i aR 人 工 智 能 ， 是 人 类 在 人 工 智 能 领 A ARA 极 探索 。 


2009 年 ， 被 誉 为 人 工大 脑 之 父 的 雨 果 : 德 :加 里 斯 教授 走 进 清华 大 学 讲堂 ， 在 两 小 时 的 
演讲 时 间 内 ， 给 大 家 TES A ee 


场 战争 ， 这 场 智能 战争 也 许 会 夺 去 数 十 亿 人 的 生命 。 这 样 的 描述 并 不 是 幻想 ， 随 着 人 类 在 
人 到 知 能 领域 取得 的 进步 ， 这 很 有 可 能 成 为 事实 。 而 这 切 主 要 六 功 王 对 机 器 学 习 的 研究 
RR 
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11.1 HARDEE 





学 习 是 人 类 具有 的 一 种 重要 智能 行为 。 直 梦 想 机 器 能 像 人 类 一 样 学 习 ， 也 一 
直 在 为 这 个 终极 目标 努力 。 那 么 ， eres Deas 
Langley (1996) SEPESI: iba IA 智能 的 科学 ， 该 领域 的 主要 研究 
对 象 是 人 工 智 能 ， 特 别 是 如 何在 经 验 学 习 中 改善 具体 算法 的 性 能 ”(Machine learning is a 
science of the artificial.The field’s main objects of study are artifacts, specifically algorithms 
that improve ii erformance with experience. ae Mitchell (1997) Œ «(Machine 
Learning) 中 写 道 : “机 器 学 习 是 计算 机 算法 的 研究 ， 并 通过 经 验 提高 其 自 
善 ”(Machine Learning i is the study of computer algorithms ti te improve al automatical through 
experience. ) din (2004) 提出 自己 对 机 器 学 习 的 定义 :“ 机 器 学 习 是 用 数 A 以 往 
的 经 验 ， eect 党 机 程序 的 1 的 性 能 标准 ”(Machine learning is programming computers to 
optimize a performance criterion using example data or past experience) 。 


笔者 综合 维基 百科 和 百度 百科 的 定义 ， 党 试 着 将 机 器 学 习 定义 如 下 : “机 器 学 习 是 一 
了 人工 智能 的 科学 ， 该 领域 的 主要 研究 对 象 是 人 工 智 能 ， 专 门 研 究 计算 机 怎样 模拟 或 实现 
类 的 学 习 行 为 ， 以 获取 新 的 知识 或 技能 ， 重 新 组 织 已 gAn 识 结 构 使 之 不 断 改善 自身 的 
能 ， 它 是 人 工 智 能 的 核心 ， 是 使 计算 机 具有 智能 的 根本 途径 机 器 学 习 的 研究 方法 通常 
学 、 认 知 科 学 等 对 人 类 学 习 机 是 的 了解， 建 记 人 克 学 习 过 程 的 计 介 模型 或 认识 
草 ， 发 展 各 神学 习 理论 和 学 分 方法 ”研究 地 重用 的 学 习 算 法 并 进行 理论 上 的 分 析 ， 建 立 面 
任务 的 具有 特定 应 用 的 学 习 系统 。 
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1.1.2 机 器 学 习 的 发 展 





早 在 古代 ， 人 类 就 萌生 了 制造 出 智能 机 器 的 想法 。 中 国人 在 4500 年 前 发 明 的 指南 
车 ， 以 及 三 和 Nea ane a ee 
置 驱 动 的 玩偶 ;，1770 年 英国 公使 给 中 国 皇 TH Sf á 
字 的 机 器 玩偶 〈 这 个 机 器 人 至 今 还 eaten 博物 院 ) 
期 对 机 器 学 习 的 一 种 认识 和 尝试 。 

真正 的 机 器 学 习 研 究 起 步 较 晚 ， 它 的 发 展 过 程 大 体 上 可 分 为 以 下 4 个 时 期 : 

一 阶段 是 在 20 世 纪 50 年 代 中 叶 到 20 世 纪 60 年 代 中 叶 ， 属 于 热烈 时 期 。 

第 二 阶段 是 在 20 世 纪 60 年 代 中 叶 至 20 世 纪 70 年 代 中 时 ， 被 称 为 机 器 学 习 冷 ii 

第 三 阶段 是 从 20 世 纪 70 年 代 中 时 至 20 世 纪 80 年 代 中 时 ， 称 为 机 器 学 习 复兴 


最 新 的 阶段 起 始 于 1986 年 。 当 时 ， 机 器 学 习 综 合 应 用 了 心理 学 和 
学 以 及 数学 、 自 动 化 和 计算 机 科学 ， 并 形成 了 机 器 学 习 理论 基础 ， “向 时 还 :结合 各 种 学 习 方 
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法 取长补短 ， 形 成 集成 学 习 系统 。 此 外 ， 机 器 学 习 与 人 工 智能 各 种 基础 问题 的 统一 性 观点 
正在 形成 ， 各 种 学 习 方法 的 应 用 范围 不 断 扩大 ， 同时 汕 现 了 商业 化 的 机 器 学 习 产 品 ， 还 各 
极 开展 了 与 机 器 学 习 有 关 的 学 术 活动 。 


近年 来 ， 随 着 全 球 第 三 次 工业 革命 的 迅猛 发 展 ， “YZ 
用 和 发 展 ， 如 今 ， 它 已 经 在 各 行 各 业 的 技术 革新 中 扮演 着 日 益 重 要 的 角色 ， 从 各 方面 影响 
和 改变 着 我 们 的 生活 。 


2015 年 8 月 ，Facebook 推 出 了 “M”，Facebook 认 为 人 类 不 仅 会 回答 人 工 智 
ssi, Th AMA oe 远 来 看 ， 人 类 也 会 帮助 改善 人 工 智能 技术 ,，“M” 除 了 能 做 到 回答 
人 还 可 以 帮助 用 户 完 成 如 购买 商品 、 和 餐厅 定位 、 安 排 旅行 计划 等 
RENE 。 


2015 年 11 月 ， 谷 歌 开 源 了 全 新 的 TensorFlow 机 器 学 习 系 统 ， 该 系统 更 快 、 更 智 
更 具有 弹性 。 2015 年 1 月 ， 机 器 学 习 平台 GraphLab 改 名 为 Dato， ey eae 
融资 (投资 方 为 Vulcan Capital. Opus Capital. New Enterprise Associates. Madrona 
Venture Group) ， 此 前 他 们 曾 获 得 680 万 美元 的 融资 。 


在 2015 年 12 月 召开 的 “2015 年 神经 信息 处 理 系统 ”(NIPS) 会 议 上 ， 微 软 研究 人 员 和 
工程 师 公 开 了 20 多 篇 机 器 学 习 最 新 研究 成 果 的 论文 。 此 外 ， 微 软 还 宣布 ， 机 器 学 习 正 在 成 
为 Windows 10 的 一 部 分 : Skyp i Ce alg en hel P a 《星际 
祭 航 》 中 的 通用 翻译 器 那样 ， BOC tea Cortana} A BUF Aue 
互动 中 不 断 学 习 与 改进 ， 从 而 帮助 用 户 管理 日 历 、 Rigen Ee OEMAR EA. 
现 真 正 的 个 性 化 互动 体验 。 Clutter BL Office 2016 的 成 员 ， 通 过 学 习 它 可 以 识 另 Ts spies 
电子 邮件 对 用 户 来 说 最 重要 ， 并 自动 将 不 重要 的 邮件 重 定 同 到 一 个 单独 的 文件 夹 中 ， 从 而 
保持 用 户 收 件 箱 的 整洁 。 


2015 年 年 底 ， 隶 属于 中 国 科 学 院 的 新 松 机 器 人 自动 化 公司 生产 了 智能 复合 型 机 器 
人 ， 这 个 安装 了 眼睛 和 感知 器 件 的 智能 机 器 人 ， 可 以 在 车 间 上 自由 地 行走 并 十 分 精 靖 地 完 
a ， 当 其 他 工 位 人 手 不 足 时 ， 接 到 指令 的 他 还 会 主动 上 前 帮忙 ， 马 上 进入 角色 并 开始 






































































































































百度 创造 和 完善 了 大 规模 机 器 学 习 的 技术 ， 拱 建 了 一 个 能 容纳 万 亿 特 征 数据 的 、 
Peis 高 效 训练 的 点 击 率 预 估 系 统 ; E MUR ENE STEER, T 
度 开始 研究 如 何 从 ?机 器 学 习 ? 到 “复制 人 类 大 脑 *，23016 年 年 初 ， 百 度 提出 ， E 百度 的 产品 和 
服务 都 靠 机 器 学 习 等 技术 来 驱动 。 





1.1.3 ”机 器 学 习 的 未 来 


纵 观 人 类 文明 的 发 展 史 ， 人 类 已 经 走 过 了 石器 时 代 、 红 铜 时 代 、 青 铜 时 代 、 铁 器 时 
代 、 黑 瞳 时 代 、 局 蒙 时 代 、 素 汽 时 代 、 电 气 时 代 、 原 子 时 代 等 时 代 历程 ， 未 来 近 百 年 内 ， 
人 类 将 从 原子 时 代 走 向 智能 时 代 ， 而 且 对 于 机 器 学 习 的 未 来 ， 人 类 已 经 提出 了 很 多 构想 。 


E a a “工业 4.0” 是 指 
以 智能 制造 为 主导 的 第 eee 性 的 生产 方法 。 该 战略 旨 在 通过 充 
信息 通信 技术 和 网 络 空间 虚拟 系统 与 信息 物 $8 HIE HEEL, EGON LEE 
型 。 根 据 机 器 学 习 等 智能 技术 的 未 来 发 展 趋势 ， 工业 4.0 主 要 包括 智能 工 广 《重点 研究 知 
能 化 生产 系统 及 过 程 ， 以 及 网 络 化 分 布 式 生 产 设施 的 实现 》、 智能 生产 (主要 涉及 整个 企 
业 的 生产 物流 管理 、 人 机 互动 ， 以 及 3D 技 术 在 工业 生产 过 程 中 的 应 用 等 ) 、 智 能 物流 
主要 通过 互联 网 、 物 联 两 、 物 流 网 ， 至 合 物流 资源 ， 充 分 发 挥 现 有 物流 的 效率 ) 等 应 
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2015 年 9 月 ， 美 军 军队 医疗 中 心 指挥 官 少将 Steve ,Jones 在 美军 陆军 的 一 次 会 议 上 发 言 
表示 ， 未 来 可 以 让 智能 机 器 人 代替 人 类 上 战场 运送 伤员 ， 美 国 军 方 甚至 高 调 宣 布 : 未 来 战 
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场 上 机 器 人 救 起 的 可 能 不 是 人 ， 而 是 机 器 人 ， 因 为 智能 机 器 人 军团 将 代替 人 类 出 征 。 


在 21 世 纪 以 前 ， ATEREA REKE” IBAA FIE I FEZI DEAA A MAHIZA 
到 了 今天 ， 有 越 来 越 多 的 人 开始 严肃 地 思考 一 个 问题 : 当 技 术 奇 点 到 来 的 时 候 ， 人 类 将 
怎样 ? 2009 年 ， KurzweilX- Prize 创 始 人 Peter Demad s 共 同 建立 了 奇 点 大 学 ta 
University) ， 致力 于 “聚集 、 教 育 并 激励 一 HOIEK, 以 应 对 人 类 在 指数 级 增长 的 
科技 下 遭遇 到 的 重要 所 bie”, AAR E UIT Ce 双人 迫在眉睫。 这 所 大 学 由 谷歌 、 欧 特区、 
ASEDHEA JEAN | 建 ， 共 有 三 个 项 目 ， 履 盖 范围 包括 机 器 人 学 、 医 学 、 生 物 
科技 、 EE 


计算 带 来 EAEN EJI» ae T ali 虽然 它们 还 不 足以 
WENER 更 智能 ， 但 它们 创造 了 强人 工 产生 的 必要 条 件 ”大 数据 使 得 机器 AA 
从 海量 的 信息 中 进行 学 习 ， 云 计算 拥有 说 价 且 强大 的 接近 人 脑 的 运算 能 力 


在 不 久 的 将 来 ， 机 器 学 习 将 走向 强人 工 知 5 能 时 代 ， 将 出 现 真正 的 能 推理 和 解决 问题 
的 智能 机 器 ， 这 些 机 器 将 有 知觉 和 自我 意识 ， 智 能 水 平 与 人 类 相当 。 
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1.2 机 器 学 习 应 用 前 景 
机 器 学 习 应 用 广泛 ， 无 论 是 在 军事 领域 还 是 民用 领域 ， 都 有 机 器 学 习 算法 施展 的 机 


Zo 





1.2.1 数据 分 析 与 挖掘 








“数据 挖掘 * 和 “数据 分 析 ” 通 常 被 相提并论 ， 并 在 许多 场合 被 认为 是 可 以 相互 蔡 代 的 
术语 。 关 于 数据 挖掘 ， 现 在 已 有 多 种 文字 不 同 但 含 接近 的 定义 ， 例 如 “识别 出 巨 量 数 据 
中 有 效 的 、 新 颖 的 、 有 的 、 eRe esate APP roe Me Ee SE 
析 定 义 为 : “数据 分 析 是 指 用 适 ee ee eee 
行 分 析 ， 以 求 最 大 化 地 开发 数据 资料 的 功能 ， 数据 的 作用 大 
ee eld 旦 。” 无 论 是 数据 分 析 还 是 数据 挖掘 ， 痢 
Sie a rea 分 析 数 据 ， 使 之 成 作出 判断 ， 因 此 可 以 将 这 两 项 合 称 为 “ 数 

JE 


数据 分 析 与 挖掘 技术 是 机 器 学 习 算 法 和 数据 存 取 技术 的 结合 ， 利 用 机 器 学 习 ro) 
统计 分 析 、 知 识 发 现 等 手段 分 析 海 量 数据 ， nt EU Cu 7 机 制 实现 数据 的 高 效 读 写 
oe ee i 2012 年 Hadoop 进 军机 器 器 学 习 领 
束 是 一 个 


Da ix 共 创 Big _ Learni 从 此 ， 机 器 学 习 俱 乐 部 多 了 一 名 新 
会 员 ”Hadoop 和 便宜 的 便 件 健 得 大 数据 水 析 葛 加 容易 ， 信 着 便 盘 和 CEBU 越 来 越 便 言 ， 以 
Reine a 的 成 熟 ， 创 业 公 司 甚至 个 人 都 可 以 进行 TB 级 以 上 的 复杂 计算 。 
Mahonut 项 目 演 变 而 来 ， 是 一 个 基于 机 器 学 习 的 实时 可 扩展 的 集群 和 推荐 
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其 他 大 公司 也 纷纷 采用 机 器 学 习 技术 分 析 数 据 ， 以 提高 其 产品 和 服务 的 质量 。 微 软 








官方 正式 启动 Azure 机 器 学 习 平台 并 已 ， 它 能 够 文 持 R、 

Python, Hadoop. Sp ak 等 语言 。 福 特 用 AI 安排 工作 进度 ， eae 益 增多 
Tis UO) TIE oe E RMA OU Be ERIE ADR I, a 神经 网 络 的 深度 学 
习 应 用 于 虚拟 药物 利 选 ， 主 要 是 试图 蔡 换 或 提高 高 通 量 筛选 过 程 中 的 计算 方法 。 se 

















i ko 雅虎 1 
机 器 学 习 算法 挖掘 160 亿 邮件 数据 ， 实验 室 的 研究 人 员 研 究 了 两 百 万 人 之 间 的 160 亿 封 邮 
件 ， 以 分 析 用 户 de de a a 
来 识别 诈骗 行为 ， 将 更 复杂 的 算法 用 过 滤 交 易 。AWS 问 欧洲 开发 商 开 放 机 器 习 服 
Jp, STUGLSEAWS Dubin E) A A RE E S NLA E f BE DIRIR 
制 问题 ， 所 有 的 分 析 和 预测 均 通 过 在 欧洲 的 数据 完成 ， 并 且 从 不 离开 这 个 区 域 ， 




















1.2.2 ”模式 识别 


模式 识别 起 源 于 工程 领域 ， WO 














带 来 了 模式 识别 领 页 域 的 调整 和 发 展 模式 识别 研究 主要 集中 在 两 个 是 研究 生物 体 
CELE AD 是 如 何 感知 对 象 的 ， 届 于 认识 科学 的 荡 肝 二 是 在 给 定 的 任务 下 ， 如 何 用 计算 
机 实现 模式 识别 的 理论 和 方法 ， 这 些 是 机 器 学 习 的 长 项 ， 也 是 机 器 学 习 研 究 的 内 容 之 一 。 




















模式 识别 的 应 用 领域 | 泛 ， 包 括 计 算 机 视觉、 医学 图 像 分 析 、 光 学 文字 识别 、 自 然 
手写 识 别 、 生 物 特征 识 别 、 文 件 分 类 、 搜 索引 擎 等 ， 而 这 些 领 域 也 

Ok IAR AFR G KERRE MRSN 关系 越 来 越 密 切 ， 以 至 于 国 
百 机 器 学 习 综合 合 在 一 本 书 里 讲述 。 




















1.2.3 更 广阔 的 领域 





wawai bbt .cam DEE ATCHHE 
































2015 eile TT, E Ge ate at aN eae 不 但 谷歌 、 
eran RRA. FE, FW SS EBSA EK 26 a] BE KU A La IBS Ti 

创业 公司 也 加 入 了 这 场 机 器 学 习 的 人 
NT HSE SHRGQIERUCHL ARAH Sa 已 经 有 超 
过 170 家 创业 公司 进入 AI 浪潮 ， 谷 歌 、IBM 等 大 型 科技 公司 并 对 AI 投入 


机 器 学 习 技术 在 全 球 各 行 各 业 的 应 用 已 经 进入 井喷 时 期 ， 

Google DeepMind 研 究 人 员 已 经 成 功 让 计算 机 通过 机 器 学 习 成 为 Atari 视 频 游戏 的 大 师 。 
歌 与 美国 强生 合作 发 展 的 AI 手术 机 器 人 ， 能 够 帮助 外 科 医 生 减 少 对 病人 的 伤害 。 

开发 了 人 工 智能 测试， 能 够 判断 AI 的 智能 程度 。 Da OTL oe eth 
习 平台 GraphLab 〈GraphLab 是 一 个 开源 项 目 ， 旨 在 天 助 机 器 分 析 图 像 ， 如 社交 关系 图 
改名 Dato， 获得 了 1850 万 美元 的 新 融资 。 微 软 已 经 为 “小 娜 "MEET MCB, 机 pee 

人 预测 运动 赛事 ， 还 能 够 告诉 你 早点 去 开会 〈 比 如 因为 交通 
Io FOS RIN 1BIA Xeon Hy IHL a 学 习 专门 做 了 调整 ， 为 快速 变化 的 服务 市 场 设 计 
FE ZANE APR, HAS a 
Aerosolve， Aitbnb 相 信 入 与 机 器 以 共 k 生 的 方式 进行 合作 的 效率 会 比 只 有 人 或 机 器 高 ， 这 个 
包 的 设计 本 质 是 追求 人 人 性 化 。 机 器 学 习 也 进入 了 Gartner 的 2015 pe Cycle 报 告 ，H 
Cycle 只 展示 数字 人 文 主义 的 技术 并 由 e E 

学 习 是 报告 中 第 一 个 出 现 的 技术 。 
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13. 小结 


























机 器 学 习作 为 一 门 多 领域 交叉 学 科 ， 该 领域 的 主 eh os 智能 ， 专 门 研究 
USHER BMD RIGS Ie, 以 获取 新 的 知识 或 技能 ， 重新 组 织 己 有 的 知识 结 
构 ， 使 之 不 断 改 善 自身 的 性 能 ， 它 是 人 工 智 能 的 核心 ， 是 使 计算 机 具有 智能 的 根本 途径 

近年 来 ， 机 器 学 习 的 研究 与 应 用 在 国内 外 越 来 越 重 视 。 机 器 学 习 已 经 广泛 应 用 于 语 
音 识别 、 图 像 识别 、 数 据 挖掘 等 领域 。 大 数据 时 代 的 到 来 ， pena TE TITOR 
域 ， 从 包含 设备 维护 、 信贷 电 请 、 金融 交易 、 医 疗 记录 、 广 告 点 击 、 用 户 消费 、 客 户 网 络 
行为 等 数据 中 发 现 有 价值 的 信息 已 经 成 为 其 研究 与 应 用 的 热点 。 

我 们 以 记者 与 雨 果 : 德 :加 里 斯 教授 的 部 分 专访 内 容 来 结束 这 一 











记者 : 为 什么 选择 这 个 研究 工作 ? 














雨 果 : 德 :加 里 斯 :对 人 类 大 脑 的 好 奇 心 和 人 脑 的 想象 力 的 好 奇 心 。 人 类 只 是 一 个 个 分 
子 构成 的 机 器 ， 像 计算 机 的 蕊 片 一 样 ， 像 编制 程序 一 样 。 男 一 方面 ， 作 为 生物 人 都 会 死亡 
消失 的 ， 但 大 工 智能 机 器 就 不 会 。 所 以 说 ， 这 个 研究 就 像 制造 神 一 样 。 











eee ?能 的 机 器 人 得 以 诞生 和 发 展 ， 但 总 有 一 
智能 机 器 会 实现 自己 进化 ， 当 这 种 技术 达到 一 个 奇 点 的 时 候 ， 就 不 需要 人 类 来 推动 了 - 
人 类 AE CE DLP gH AL RUT EB A 


记者 : 预测 一 下 未 来 人 工 智能 机 器 的 前 景 。 


雨 果 : 德 :加 里 斯 :下 一 个 20 年 ， 它 们 很 有 可 能 出 现在 我 们 的 家 里 ， 为 我 们 打扫 房间 ， 
照顾 小 孩 ， es 给 我 们 来 自 地 球 上 知识 库 里 面 的 无 限 知识 。 我 们 还 将 可 以 和 它们 
有 性 关系 ， 被 它们 教育 ， 20 年 后 的 大 脑 制造 业 ， 每 年 全 
sa 创造 万 亿 美元 的 价值 。 人 工 知 能 机 器 从 雍 我 们 聪明 万 伦 倍 的 可 和 EHE, IN 

地 说 ， 人 工 智 能 机 器 和 入 类 交流 ， 就 像 人 类 oe s 样 艰难 。 不 过 ， 真 正 的 人 
REMAIN DLT 4: ROSEMEAD. K 活着 看 不 到 工作 的 真正 结果 ， 这 是 让 我 
He ROA OER. 
































is 























wawai bbt .cam OAR IEE ATCHE 


















































P 机 器 学 习 的 应 用 建立 在 科学 计算 的 基础 

的 主要 组 成 部 分 。 计 算 机 技术 的 飞速 发 展 和 计算 数学 方法 及 
杂 的 数学 计算 问题 成 为 可 能 。 这 些 问题 在 以 前 用 一 般 的 计算 工 
计算 机 来 处 理 却 非常 容易 。 目 前 用 计算 机 处 理 得 较 多 的 数学 
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第 一 类 是 Bit 它 以 数值 数组 作为 运算 对 象 ， 给 出 数值 解 ; ee 
产生 误差 累积 问题 影响 了 计算 结果 的 精确 性 ， 计 算 灵 度 快 ， 占用 资源 少 


BRL BIL, 它 以 符号 对 象 和 符号 表达 式 作 为 运算 对 象 ， 给 出 解析 解 ， 运 算 
不 受 计算 误差 累积 问题 a 计算 指令 简单 ， 占 用 资源 多 ， 计 算 耗 时 长 。 


re De 要 手段 ， 它 研究 ee UAT ee see 

直 计 算 方 法 的 计算 对 象 是 微 积 分 、 线 性 代数 、 

、 数 全 积分 与 数值 微分、 年 阵 的 特征 人 与 特征 风量 求解 、 线性 

根 ， 以 及 微分 和 BY EAT JL Bane ee 
>) STUER ris BED FA A 
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LE SUL NAIVE, Ei, HS 
的 数据 和 得 到 的 结果 者 是 答 号 。 符 号 上 可 以 是 字 导 和 公式 ， 也 可 以 是 数值 ， 其 运算 以 推理 
解析 的 方式 进行 ， 不 受 计算 误差 积累 问题 困 护 ， 计 算 结果 为 完 ENOPS CH 
的 数值 解 ， 这 意味 着 符号 计算 给 出 的 结果 能 避免 因 全 入 误差 而 引起 的 问题 。 还 有 更 多 的 数 
学 分 支 正在 进入 机 器 学 习 领 域 ， 复 杂 的 数学 计算 需要 强大 的 科学 计算 平台 。 科 学 计算 平台 
提供 了 机 器 学 习 算法 应 用 的 底层 支持 。 
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现代 科学 研究 的 方法 主要 有 三 种 ， 理 论 论证 、 科 学 实验 、 科 学 计算 。 近 年 来 ， 科 学 
计算 方法 逐 at ea athens 在 金融 工程 MERA ZEA 
H 






































息 检 过 

数值 计 筑 、 数 据 分 机 、 决 策 支 持 等 领域 得 到 了 广泛 使 用 。 由 于 计 

技术 科学 领域 的 应 用 推广 与 深化 ， 这 些 应 用 领域 不 论 ENER IT 
i 








行 科学 计算 ， 并 研究 其 适合 于 
| 础 条 件 平台 ， 有 力 地 推动 


DD o 














机 器 学 习 应 用 需要 科学 计算 的 文 持 。 a Cae aie a 
JRA, BAPE Gail are) TAI AS Ae BR FG AK CR MARLA E Od) FS DN 
用 早已 经 离 不 开 科学 计算 平台 的 支撑 ， 科 学 计算 平台 也 因为 机 器 学 习 的 迅猛 发 展 而 进入 了 
全 新 的 百家争鸣 时 代 。 











2.1.1 常用 的 科学 计算 软件 


目前 常用 的 科学 计算 软件 有 以 下 几 种 : 
1.MATLAB 


MATLAB 是 一 种 用 于 数值 计算 、 可 视 化 及 编程 的 高 级 语言 和 交互 式 环境 。 使 用 
MATLAB， 可 以 分 析 数 据 、 开 发 算法 、 创 建 模 型 和 应 用 程序 ， 通 过 矩阵 运算 、 绘 制 函 数 
和 数据 、 实 现 算法 、 创 建 用 户 界 面 、 连 接 其 他 编程 语言 等 方式 完成 计算 ， 比 电子 表格 或 传 
统 编程 语言 〈 如 C/C++ 或 Java) 更 方便 快捷 。 AD 
和 矩阵 分 析 、 线 性 代数 、 多 元 函数 分 析 、 数 值 微 积分 、 方 程 求解 、 边 值 问 题 求解 、 数 理 统计 
等 常见 的 数值 计算 ， 同 时 它 也 能 进行 符号 计算 。 


2.GNU Octave 


GNU Octave 与 MATLAB 相 似 ， 自由 软件 基金 会 开发 的 一 个 自由 再 发 布 软件 ， 
John W.Eaton 为 首 的 一 些 志愿 ase 开发 了 叫 作 GNU ”Octave 的 高 级 语言 ， ee 
MATLABA, 主 要 用 于 于 数值 i 十 算 ， avec — 个 方便 的 命令 行 方式 ， 可 以 数值 

WOMAN A ERIE Bs ， 以 及 做 二 此 < 数值 模拟 。 


3.Mathematica 


Mathematica 系 统 是 美国 Wolfram 研 究 公司 开 发 的 一 个 功能 强大 的 计 
它 提供 了 范围 广泛 的 数学 计算 功能 ， Zt fE TSR IRI MAA 
种 计算 。 这 个 系统 是 一 个 集成 化 的 计算 机 软件 系统 ， 要 功能 包括 名 
算 和 图 形 三 个 方面 ， TARDAR ARA A S T 
和 实际 问题 。 
4.Maple 

1980 年 9 月 ， 加 拿 大 滑铁卢 大 学 的 符号 计算 研究 小 组 研制 出 一 种 计算 机 代数 系统 ， 
Z HMaple, Maple EAN I Fak 它 具 有 良好 的 使 用 环境 、 Ae Hin 


件 ， 
符号 计算 能 力 、 高 精度 的 数字 计算 、 灵 活 的 图 形 显示 :和 高 效 的 可 编程 功能 Maple 在 符号 
计算 方面 功能 强大 ， 符 号 计算 式 可 以 直接 以 数学 的 形式 来 输入 和 和 输出， 直观 方便 。 


5.SPSS 


SPSS 预 测 分 析 是 IBM 公 司 的 产品 ， 它 提供 了 统计 分 析 、 数据 和 文本 挖 据 、 预测 模型 
和 决策 优化 等 功能 。IBM 宣 称 ， 使 用 SPSS 可 获得 5 大 优势 : 商业 智能 ， 利 用 强大 而 简单 的 
分 析 功 能 ， 控 制 数据 爆炸 ， 满 足 组 织 灵 洁 部 团 衣 DA 能 的 需求 ， 提 升 用 户 期 望 值 ; 绩效 管 
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理 ， 指 导管 理 战略 ， 使 其 朝 着 最 了 场景 建 模 、 
浅显 多 履 的 报告 等 ; 珊 测 分 析 ， 通 过 发 现 细微 的 模式 关联 ， 开发 和 部 署 预测 模型 ， 以 优化 
决策 制定 ;分析 决策 管理 ， 业务 员工 可 利用 该 系统 ， 与 每 位 客户 进行 互动 ， 从 中 获取 
丰富 信息 ， 提 高 业务 成 绩 ， 风 险 管理 ， 在 合理 的 前 提 下 下 ， 利 用 智能 的 风险 管理 程序 和 技 
术 ， 制 定 规避 风险 的 决策 。 

6. 





R 语 言 套 主要 用 于 统计 分 析 、 绘 图 的 语言 和 操作 环境 。R 目 前 由 “R 开 发 核心 团队 ” 负 
责 开 发 ， 它 是 基于 S 语 言 的 一 个 GNU 项 目 ， 语 法 来 自 Scheme， 所 以 也 可 以 当 作 S 语 言 的 一 
村 实现 虽然 R 主 要 用 于 统计 分 析 或 者 开发 统计 相关 的 软件 ， 但 也 可 用 作 甜 阵 计 算 ， 其 分 
行 操作 ， 网 上 也 有 几 种 图 形 用 户 

可 供 下 载 。R 内 建 多 种 统计 学 及 数字 分 析 功 能 ， 还 能 透 过 安装 套件 Packages) 增 

















A 
7.NumPy、SciPy、matplotlib 等 Python 科学 计算 平台 


ython 是 一 种 面 癌 对 象 的 、 动 态 的 程序 设计 语言 ， 它 
aay DUH SF Mee ESE ELE ARI, 也 可 以 用 于 开发 大 规模 的 软件 ， 特 别 j 各 
任务 。 NumPy Selby. marglorlin 84 ETEN 的 并 发 ，Python 越 来 越 适合 用 于 科学 
计算 。NumP 个 基础 科学 的 计算 包 ， 包 括 : 一 个 强大 的 N it 
Forani LA EPERRA (ain ie e a BE a 
SciPy 是 一 个 开源 的 数学 E 十 算 包 ， 能 成 最 
特殊 函数 、 快速 傅 里 叶 变 换 、 信号 处 理 和 图 像 处 理 、 常 微分 广 
是 Python 最 著名 的 绘图 库 ， 它 提供 了 AER MATLAB 
制 ON RIL IF ERP, fk AGUID HFEF H. 
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2.1.2 ”本 书 使 用 的 工程 计算 平台 


MATLAB, Mathematica, Maple, SPSS 等 软件 功能 齐全 、 界 面 友好 ， 同 时 内 含 多 种 
强大 的 软件 包 ， 但 价格 昂贵 ， 它 们 都 是 商业 化 软件 ，GNU Octave、R 和 Python 科学 计算 包 
作为 开源 免费 的 工程 计算 平台 ， 会 是 不 错 的 选择 。 


在 多 种 操作 系统 
平台 上 运行 。 TuS 种 非常 流行 的 脚本 语言 ， 用 户 较 容易 掌握 ， 也 有 成 熟 并 行 计 
SHEE Op a 应 用 宁 大 规模 分 布 式 语 算 揭 

工程 之 中 。 正 是 因为 Python 共有 如 此 之 多 的 优 扣 ， Google 内 部 也 经 常 使 用 它 。R 语 言 内 置 
ey Wu ea Bc SIERENS ITEE, KEA HNS ol JOHOR 
RHR SARS, WR 5 age hE 集 型 任务 通过 在 运行 时 链接 与 调用 C、 
C++、FORTRAN 代 码 完 成 。 此 外 ， 通 过 Rcpp 能 把 丰富 的 R 环 境 与 C/C++ 等 结合 ， 将 R 的 
E WE Se BOG EI 
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2.2 ”计算 平台 的 配置 


本 章 将 以 Windows 平 台 和 Linux 平 台 为 例 ， 讲 解 R 和 Python 科学 计算 平台 的 配置 。 
Python 和 R 有 具有 跨 平 台 运行 的 特点 ，Windows 平 台 编 写 的 Python 和 R 代 和 码 只 需 修 正 兼容 性 问 
题 即 可 正常 运行 在 类 UNIX 平 台 上 ， 如 : 中 文字 符 的 UTF8 与 GBK 转 换 、Windows 系 统 与 类 
UNIX 平 台 的 文件 路 径 差 异 等 。 








2.2.1 Numpy 等 Python 科学 计算 包 的 安装 与 配置 





Python 科学 计算 包 有 两 种 安装 方式 ， 即 : 分 别 安装 科学 计算 平台 内 的 软件 包 和 安装 
WinPython 集 成 计算 包 。 如 果 是 开发 环境 ， 建 议 使 用 WinPython。 
1. 分 别 安装 科学 计算 平台 内 的 软件 包 

先 安装 Python， 关 于 它 的 版 本 ， 推 荐 使 用 2.7 版 本 ， 然 后 安装 NumPy、SciPy、 
matplotlib 等 Python 软件 包 ， 它 们 都 有 Windows 系 统 下 的 安装 包 。 

Python 安装 包 的 下 载 页 面 为 http:/www.python.org/download/ ， 选 择 2.7 版 本 的 
Windows 安 装 可 执行 文件 下 载 即 可 。 

NumPy 223 FEA ffi Ayhttps://pypi.python.org/pypi/numpy ， 下 载 Windows 版 本 的 安 
装 可 执行 文件 即 可 。 

SciPy 安 装 包 下 载 页 面 为 https:/pypi.python.org/pypi/scipy/ ， 该 软件 包 目 前 没有 
Windows 版 本 的 安装 执行 文件 ， 要 用 传统 的 Python 安装 第 三 方 软件 包 的 方式 安装 ， 将 安装 
包 下 载 解 压 ， 然 后 在 命令 行进 入 解压 目录 ， 输 入 以 下 命令 : 




















python setup.py install 


Matplotlib 软 件 包 的 下 载 页 面 为 http://matplotlib.org/downloads.html ， 下 载 Windows 版 
本 的 安装 可 执行 文件 即 可 ， 注意 所 下载 Latest stable version 对 应 的 软件 包 。Windows 版 本 
的 安装 可 执行 文件 通常 命名 格式 为 : 产品 名 称 + 平台 名 称 +CPU 型 号 + 版 本 号 。 以 Matplotlib 
为 例 ， 打 开 其 下 载 页 面 ， 如 图 2-1 所 示 。 
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Downloads 


1.3.0 — Latest stable version 


matplotlib-1.3.0.tar.gz 
matplotlib-1.3.0.win-amd64-py2.6.exe 
matplotlib-1.3.0.win-amd64-py2.7.exe 
matplotlib-1.3.0.win-amd64-py3.2.exe 
matplotlib-1.3.0.win-amd64-py3.3.exe 
matplotlib-1.3.0.win32-py2.6.exe 
matplotlib-1.3.0.win32-py2.7.exe 
matplotlib-1.3.0.win32-py3.2.exe 
matplotlib-1.3.0.win32-py3.3.exe 


oe #eeeeess# 


图 2-1 Matplotlib 下 载 页 面 


假设 计算 机 的 操作 系统 是 32 位 ，Python 版 本 号 为 2.7， 则 下 载 安装 matplotlib- 
1.3.0.win32-py2.7.exe， 如 果 操 作 系 统 是 64 位 的 ，Python 版 本 号 为 2.7， 则 下 载 安 装 
matplotlib-1.3.0.win-amd64-py2.7.exe. 


ma 在 类 UNIX 平 台 上 《〈 以 UBUNTU 为 例 ) ， 可 使 用 下 面 的 命令 安装 Python 及 相关 科学 计 





Sudo apt-get install python-numpy python-scipy python-matplotlib ipython ipython- 
notebook python-pandas python-sympy python-nose 





2. 安 装 WinPython 集 成 计算 包 


WinPython 集 成 计算 包 集 成 了 Numpy 等 第 三 方 Python 科学 计算 库 ， 在 
ey ae a hon 后 ，Numpy 等 计算 库 和 Python 2.7 会 一 同 被 
安 逆 。 此 外 ，WinPython 附 带 一 款 非 常 不 错 的 IDE 开 发 调试 环境 Spyder， 如 图 2-2 所 示 是 
Spyder 的 界面 截图 。 
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ia 
Cuh OQQA EIH 0 BT AHO: ¢ 4 rm 
Editor ~ T: \book prog\mplanaliner. py B X Variable explorer 
1#!/usr/bin/env python 
2#-*- coding: utf-8 -*- 
3 #email :myhaspl@qq. com 
4 #author: #4 
5#2013-07-25 
6import numpy as np 
Tlimport math 
import matplotlib.pyplot as plt 
9 
10 
liclass Mplannliner: 
12 def _ init__(self): 


Python 2.7.5 (default, May 15 2013, 22:43:36) [MSC v.1500 
13 self b=1 32 bit (Intel)] on win3? 


Type "help", "copyright", “credits” or “license” fi 
14 self ,ab=0,1 Kalbe copyrig credits” or “license” for more 














15 S elf ,a=0,0 Imported NumPy 1.7.1, SciPy 0.12.0, Matplotlib 1.2.1 + gu 


self z r=20 $ Q gt gat details. 
self .expect_e=0.05 i 
self traincount=100 


self .testpoint=| ] 


Permissions; RN End-of-lines: CRLF Encoding: UTF-8 line: 7 Column: 1.» Memory: 21 % 
图 2-2 Spyder 界面 


在 图 2-2 所 示 的 界面 中 ， 右 上 角 是 类 似 于 MATLAB 的 “工作 空间 ”， 可 很 方便 地 观察 和 
修改 变量 〈 包 含 多 维 数 组 ) 的 值 ， 同 时 还 拥有 方便 用 户 的 智能 代码 〈Call-Tips 和 Anuto- 
Complete) 功能， 如 图 2-3 所 示 。 


在 IDE 开 发 窗口 下 廊 的 Console 栏 可 以 使 用 pdb (类 似 于 C 语 言 的 GDB 调 试 工具 ) 调试 
Python 代码 ， 也 可 以 通过 Spyder 的 调试 染 单 进 行 调试 。 下 面 是 pdb 调试 工具 的 使 用 帮助 : 




















>>> debugfile(r'K:\book_prog\zxecf.py', 
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wdir=r'K:\book_prog' ) 

> k:\book_prog\zxecf.py(7)<module>() 

-> import matplotlib.pyplot as plt 

(pdb) help 

Documented commands (type help <topic>): 


EOF bt cont enable jump pp run unt 

a C continue exit 1 q S until 
alias cl d h list quit step up 
args clear debug help n r tbreak w 

b commands disable ignore next restart u whatis 
break condition down j p return unalias where 


7 import matplotlib.pyplot as plt 
8x =(1,2,3,3,6,12,11] 
9y =[3,5,8,5,12, 26, 20] 


Hav | 


count 


DNV te 





1500 32 bit (Intel)] on win3? 
more information. 


+ guidata 1.6.1, guiqnt 2.3.0 








图 2-3 ”智能 代码 功能 
常用 的 pdb 调试 命令 如 下 : 
‘h(elp): 打印 当前 版 本 pdb 可 用 的 命令 。 
‘disable/enable: 禁用 /启用 断 点 。 
n(exb: 让 程序 运行 下 一 行 。 
‘c(ont(inue)): 让 程序 正常 运行 ， 直 到 过 到 断 点 。 
‘j(ump): 让 程序 跳 转 到 指定 的 行 数 。 


no 设置 断 点 ， 例 如 “b”23”， 就 是 在 当前 脚本 的 23 行 打上 断 点 ， 函 数 名 也 可 作 
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‘condition: 设置 条 件 断 点 。 下 面 语 句 就 是 对 第 5 个 断 点 加 上 条 件 x>=8: 





(Pdb) condition 5 x>=8 





‘cl(ear): 清除 指定 参数 的 断 点 或 所 有 断 点 。 
p: 打印 某 个 变量 。 比 如 : 


(Pdb) p _file 
让 





./pic/dog.jpg’ 





! ; 感叹 号 后 面 跟着 语句 ， 可 以 直接 改变 某 个 变量 。 

“gq(uit): 退出 调试 。 

综 上 所 述 ， 在 Spyder 的 帮助 下 ， 能 更 高 ? a 因此 笔者 推荐 在 
开发 环境 中 安装 WinPython， 方便 快捷 ， 有 利于 机 器 学 习 算法 代码 的 编写 。 此 外 ， 安 装 好 


WinPython 后 ， 请 和 系统 的 “开始 ~ 程序 ~ WinPython > WinPython Control 
Panel” 中 进行 注册 











2.2.2 ”OpenCV 安 装 与 配置 


OpenCV 是 Intel 开 源 计算 机 视觉 库 ， 它 由 一 系列 C 函 数 和 少量 C++ 类 构成 ， 实 现 了 图 
像 外 理 和 计算 机 视觉 方面 的 很 多 通用 鱼 法 。OpenCVy 拍 有 包括 300 多 个 C 巴 数 的 的 全 yA 
高 层 API。 它 不 依赖 于 其 他 的 外 部 库 〈 尽 管 也 可 以 使 用 某 些 外 部 库 ) ， 对 工程 应 用 来 说 ， 
M 因为 它 遵守 BSD 开 源 协议 ， 对 非 商业 应 用 和 商业 应 用 


十 DÌ o 























OpenCV 的 主要 功能 有 : ME, KERE ERE RNE 
及 线性 代数 运算 EATA KA MA fee AY ENINA 摄像 头 定 标 、 运动 
分 全 目标 识别 、 基本 的 GUI 和 图 像 标 ; 注 。 而 且 ，OpenCV 提 供 了 官方 的 Python 接 口 ， 其 
使 用 JERICHO 基 木 一 NM, Ae LE MMM IAA IRSA ATA. Sb, PAH 
SHE 回 值 时 一 次 会 返回 多 个 值 。 


在 Windows 上 下 载 安装 OpenCV 的 可 执行 文件 后 可 直接 运行 ， 下 载 页 面 
为 http://opencv.org/downloads.html 。 


其 在 Linux 平 台 上 的 安装 方式 在 OpenCV 官 网 上 有 介绍 ， 具 体 安装 顺序 如 下 : 


1) 安装 基本 软件 包 。GCC 4.4.x 或 更 高 版 本 、 CMalke 或 更 高 版 本 、 Git、GTK+2.x 或 
更 高 版 本 、including headers(libgtk2.0-dev)、pkgconfig、Python 2.6 或 更 高 版 本 、Numpy 1.5 
或 更 高 版 本 、python-dev、python-numpy、ffmpeg 或 libav 开 发 包 、ibavcodec-dev、 
libavformat-dev. libswscale-dev. 


2) Ze ny ERE AL. libdc13942.x. libjpeg-dev. libpng-dev. libtiff-dev. libjasper- 
dev. 
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3) 在 http: //opencv.org/downloads.html 下 载 其 源 代码 ， 解 压 后 ， 进 入 目录 以 源 代码 编 
译 方式 安装 OpenCV。 
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$cd ~/opencv 
$mkdir release 
$cd release 


$cmake -D CMAKE_BUILD_TYPE=RELEASE -D CMAKE_INSTALL_PREFIX=/usr/local .. 


$make 


$sudo make install 

















OpenCV 官 方 提供 
Windows F, K ÈA 


了 Python 绑 定 库 ， 








hon2.7 为 例 讲 述 了 安装 绑 定 库 的 方法 ， 在 











| 到 Python 的 目 ae, ence pio .7 下 的 cv2.pyd 文 件 复制 
到 python-2.7.5\Lib\site-packages 目 录 下 即 可 。 在 Linux 下 安装 了 Pyt 


























n 后 ， 要 确 
有 .7/site-packages 下 有 cv.py 和 cv2.so 文 件 ， 如 果 没 有 ， were 文件 复制 过 来 


2.2.3 ”mlpy 安 装 与 配置 


在 GPL3 开 源 协议 之 上 。 





mpy ae 它 提供 了 高 层 函 数 和 类 ， 人 允许 使 
用 少量 代码 来 完成 复杂 的 分 类 、 特 征 提取 、 回 归 、 聚 类 等 任务 。 mply 为 免费 软件 ， 建立 














mlpy 在 Windows 


下 的 安装 方式 较 简 单 ， 


http://sourceforge.net/projects/mlpy/files/ 


在 类 Linux 平 台 上 ， 其 安装 方法 稍稍 复杂 一 些 ， 以 Linux、OSX 和 FreeBSD 为 例 ， 安 装 
配置 mlpy， 需 要 先 安 装配 置 好 以 下 软件 : 





“GCC 


Python 且 版 本 >= 
.NumPy 且 版 本 >= 





2.6 或 为 3.X 
1.3.0 


“SciPy 且 版 本 >=0.7.0 
:GSL 有 是 版 本 >=1.11 
然后 ， a AN a 并 解压 安装 。 Eyes ie 


件 没 有 安装 在 系统 的 标准 位 置 





可 以 直接 在 下 面 网 址 下 载 可 执行 文件 安装 : 


中 情况 下 ，mply 的 安装 方式 如 下 





$python setup.py build_ext 


$python setup.py install 


--include-dirs=/path/to/header -- 


rpath=/path/to/lib 





如 果 GSL 安 装 在 标准 位 置 ， 则 只 需要 运行 





2.2.4 ”BeautifulSoup 安 装 与 配置 


BeautifulSou 是 用 P 


标记 ， 并 生成 剖析 树 ， 
角色 。 


对 于 不 i a 有 补 全 功能 


省 了 开发 者 的 很 多 时 间 和 精力 。 


‘7x BeautifulSoup {kx fi 简单 ， 





安装 方式 。 首 先 下 载 BeautifulSoup 源 码 ， 其 


为 : http://www.crumm i 


然后 解压 后 运行 以 下 命令 : 
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/ 。 








pine 











10n 写 的 一 个 HTML/XML 的 解析 器 ， 
通常 和 


它 可 以 很 好 地 处 理 不 规范 
z 省 直接 充当 部 分 “ 谍 虫 ”的 
ARMM RATES I, 1 








en 台 和 Linux TF f 台 上 都 是 使 用 的 传统 第 三 方 库 





python setup.py install 





此 外 ， 在 UBUNTU 下 还 可 以 使 用 系统 包 管 理 器 安装 。 








$ apt-get install python-bs4 





2.2.5 Neurolab 安 装 与 配置 


NeuroLab 是 一 个 简单 而 强大 的 、 用 Python 编写 的 神经 网 络 库 ， 包 括 基础 神经 网 络 、 
训练 算法 ， 并 具有 弹性 的 构架 ， 可 创建 其 他 网 络 ， 它 用 纯 Python 和 numpy 写 成 。API 的 使 
用 与 MATLAB 的 神经 网 络 工 具 箱 类 似 ， 具 有 弹性 的 网 络 配 置 和 学 习 算法 ， 可 以 改变 神经 
网 络 和 学 习 算 法 的 类 型 、 训 练 、 误 差 、 初 始 函数 和 激活 函数 等 神经 网 络 参 数 。 

Windows 和 Linux 下 的 安装 方式 如 下 。 

首先 在 下 面 的 页 面 下 载 Neurolab: 


http://code.google.com/p/neurolab/downloads/list 
然后 解压 后 运行 如 下 命令 : 














python setup.py install 





2.2.6” 尺 安装 与 配置 











有 的 原始 码 可 自由 下 载 使 用 ， 也 有 已 编译 的 执行 档 版 本 可 以 下 载 ， 可 在 多 种 平台 下 运 
行 ， 包 括 类 UNIX (包含 FreeBSD 和 Linux) 、Windows 和 MacOS 。 


WINDOWS 安 装 方式 如 下 。 

首先 访问 其 官网 下 载 页 面 : 
http://ftp.ctex.org/mirrors/CRAN/ 
然后 下 载 安 装 可 执行 文件 安装 即 可 。 
UBUNTU 下 的 安装 方式 如 下 : 








$ sudo apt-get update 
$ sudo apt-get install r-base 
$ sudo apt-get install r-base-dev 
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23 小 结 


“不 要 重复 造 轮子 ”(Stop Trying to Reinvent the Wheel) ， 这 可 能 是 每 个 软件 工程 师 
入 行 时 被 告知 的 第 一 条 准则 。 在 轮子 适合 机 器 学 习 * 这 台 车 的 情况 下 ， 机 器 学 习 算 法 才能 
跑 得 更 好 ， 适 合 的 科学 计算 平台 就 是 机 器 学 习 的 “轮子 ”。 


笔者 认为 ， 作 为 机 器 学 习 这 驾 马 车 的 “轮子 ”应 该 具备 以 下 特征 : 
.开源 免费 ， 且 开源 协议 友好 ， 例 如 : LGPL 协 议 或 BSD 协 议 ， 这 样 更 有 利于 商业 应 





























:平台 有 文档 ， 接 口 规范 ， 能 实际 代码 用 例 最 好 。 
:配置 简单 灵活 ， 文 持 的 操作 系统 平台 多 ， 运 行 速度 快 。 
:代码 结构 清晰 、 简 单 ， 便 于 使 用 者 修改 这 个 “轮子 ”， 通 俗 地 说 : 移植 性 强 。 


本 书 采用 的 计算 平台 在 本 章 都 一 一 列 出 其 安装 和 配置 方法 。 算 法 是 一 种 计算 思维 的 
描述 ， 万 变 不 离 其 宗 ， 好 的 工具 原理 都 差不多 。 


也 许 随 着 时 间 的 推移 ， 算 法 在 改进 ， 更 好 的 “ 轮 了 ”将 出 现 ， 所 以 不 一 定 采 用 本 书 上 
所 写 的 这 些 平台 作为 机 器 学 习 实 验 和 应 用 的 工具 ， 但 有 一 条 原则 : DA ba EAA 
一 定 适合 所 有 的 工程 ， 一 切 以 适用 为 准 。 
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第 二 部 分 


合 抱 之 木 ， 生 于 毫 末 :; 九 层 之 人 台 ， 起 于 累 土 ， 和 干 里 之 行 ， 始 于 足下 。 


wana bbt . cam 











基础 篇 


WEA 








pine 











第 3 章 ”计算 平台 应 用 实例 
3.1 Python 计算 平台 简介 及 应 用 实例 
目前 ， o Bee” 在 本 书 中 ， 使 用 Python 编 ee e ee 
平台 有 : w 学 计算 包 、 OpenCY 的 Python 纪 h 定 库 、 at 学 习 


oie 区 页 解析 库 、 Neurolab 神 经 网 络 库 等 ， 所 有 平台 均 为 开源 免费 软件 。 本 音 将 
讲解 这 些 计 算 平 台 的 操作 ， 并 解析 一 些 基础 实例 应 用 。 





3.1.1 Python 语言 基础 


1989 年 圣诞 节 期 间 ， 吉 多 : 范 罗 苏 姆 为 了 打发 假 晶 时间， 决心 开发 一 个 新 的 脚本 解释 
程序 ， 作 为 ABC 语言 的 一 种 继承 ， 就 这 样 Python 在 了 吉 多 手中 诞生 了 。Python 的 设计 哲学 
是 优雅 、 明 确 、 简 单 。Python 提 供 了 丰富 的 API 和 工具 ， 使 程序 员 能 使 用 C 语 言 、C++、 
hon 编 写 扩充 模块 。 Python 编译 器 本 身 也 可 以 被 集成 到 其 他 需要 脚本 语言 的 程序 中 。 此 

EY ROME 种 “胶水 语言 > 使用， 用 它 将 其 他 语言 编写 的 程序 进行 集成 和 封 





























Python 包含 了 组 元 党 而且 容 多 理解 的 标准 库 ，f E 够 轻松 地 完成 很 多 常见 的 任务 
县 代码 语法 简洁 、 清 晰 ， 使 用 缩 进 定义 语句 块 ， 具备 很 高 的 可 读 性 。 由 于 python 语言 具 
EN 易 读 以 及 可 扩展 性 ， 在 国内 外 用 Python 移 科 尝 计 算 的 研究 机 构 、 商业 公司 日 益 扫 
多 ， 比如 : 三 大 经 典 科 学 计算 库 Numpy、SciP 0 He d Python. 通过 Python 

可 以 轻 恰 完 成 众 束 数组 处 理 、 数 值 运算 和 给 


1.Python 基 本 数据 类 型 


Python 是 解释 运行 的 动态 语言 ， 解 释 器 的 提示 符 为 ">>>”。 Python 的 基本 数据 基 型 包 
een 字符 串 型 和 列表 ， 此 外 还 可 以 用 类 型 表示 函数 、 模 块 ` 类 型 本 身 、 对 象 的 方 
法 、 His Python ttt. 运行 时 信息 等 。 


1) BE, Helo a ae a sa 在 计算 过 程 中 可 使 
用 “+” (加 ) 、 _2 R) 、 669499 (F) 、 “j? R) 、 e C2、 “ey? :以 及 “90” (HZ) 等 操作 
各 外， Python h # :表示 其 后 的 内 容 是 注释 。 下 面 代码 演示 了 其 基本 的 计算 功能 和 注 
F 























MEK 

















>>> 2+2 


>>> # KITE 


... 2+8 
10 
>>> (50-5*6)/2 
>>> 17/-4 

-5 


>>> 9%2 
1 





onf H => ITERE, WME REDZ MER, EA AAE H — 4r h Ep 
A TRA BADE MAG PE KATERE - TT 马 对 变量 进行 复数 和 实数 的 赋值 。 











>>> c=5 .2-6.5j### 复 数 


>>> C 
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(5.2-6.5j) 
>>> C.real### 实 部 


5.2 
>>> c. imag#H## i i 








变量 企 使 用 前 ， 要 处 于 定义 状态 〈 即 已 经 赋值 ) ， 和 否则 会 出 错 。 下 面 代码 试图 对 未 
定义 的 变量 myx 进 行 操作 结 Ki Hey ; 


>>> myx # 访问 未 定义 的 变量 





Traceback (most recent call last): 
File "<stdin>", 


line 1, 


in <module> 
NameError: name 'myx' is not defined 





在 Bython 计 算 中 可 使 用 浮 点 数 。 如 果 在 计算 过 程 中 出 现 了 浮 点 数 ， gars 自动 转 
换 为 浮 点 型 计算 ， 如 果 金 居 整 型 ， 则 计算 结案 也 为 整形 。 在 下 面 例子 中 ， 第 一 行 代 码 两 个 
操作 数 均 为 整 型 ， 返 回 的 结果 并 不 会 精确 为 整 型 ， 而 在 第 二 行 代码 中 ， 第 一 个 操作 煞 7.0 
为 浮 点 型 ， 返 回 的 结果 为 浮 点 数 。 《以 下 代码 请 在 Python 解释 器 下 运行 ) 。 











>>> 7/3 

2 

>>> 7.0/3 

2 ..3333333333333335 











复数 运算 使 用 (realtimagj) 的 形式 ， 也 可 使 用 com mo a 生生 天 要 
其 中 real 表 示 实 部 ，imag 表 示 虚 部 。 从 而 是 一 些 复数 评 咎 的 





>>> 2+6J 

(2+6j) 

>>> 2-6) 

(2-6j) 

>>> 1j * complex(0, 


1) 
(-1+0j) 
>>> 3+1j*3 
(3+3j) 

>>> a=1.5+0.5j 

>>> a.real 

1.5 

>>> a.imag 

0.5 











变量 <” 表示 刚 计算 的 结果 。 下 面 代码 通过 计算 (3+2)〉x6 演 示 了 该 变量 的 使 用 。 





>>> 3+2 
5 
>>> _*6 
30 
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Sr ip ea 常用 单 引号 和 双 引 号 包围 的 形式 表示 ， 通 过 print 语 





X 
4 
: FE 
it 
ee 
go 

















句 可 将 字符 串 输出 到 输出 设备 中 人 。 此 外 ，Python 2.0 及 以 后 的 
版 本 支持 Unicode 字 符 串 ， 中 文字 符 一 般 使 用 Unicode 编 码 〈 国 际 组 织 制定 的 容纳 世界 所 有 
文字 和 符号 的 字 符 编码 方案 ， 用 0~0x10PPFF 映 射 字符 ， 最 多 可 以 容纳 1114112 个 字 答 》， 
在 前 面 加 u 表 示 后 面 是 Unicode 字 符 串 。 下 面 的 代码 演示 了 Unicode 字 符 的 定义 与 使 用 、 字 
符 串 的 输出 等 操作 。 

>>> "spam eggs’ 

spam eggs 

>>> '"Yes, 

" he said.' 

'"Yes, 

" he said. ' 


>>> print u" 你 好 


"你 好 


>>> print u" 机 器 学 习 


"机 器 学 习 





Python 的 字符 串 可 视 为 列表 H JJ: j 
a AOI f OEE N EA Be. RTA T RAS YN T FEFE ERE. rE 











>>> word = 'Help' + 'A' 

>>> word 

"HelpA' 

>>> '<' + word*5 + '>!' 
'"<HelpAHe1lpAHelpAHelpAHelpA>' 


>>> word[-2:] # 最 后 
2 个 字符 
"pA' 
>>> word[:-2] # 除 去 最 后 
2 个 字符 以 外 的 字符 
"Hel' 








Python 的 字符 串 可 使 用 转 义 字符 ， 方 法 是 在 特殊 字符 前 加 上 “*”。 主 要 的 转 义 字符 


\ gg 
\" 双 引 号 
\a 发 出 系统 响 铃声 
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\b BRT 
\n ”换行 符 
\t ”横向 制 表 符 
\v 纵向 制 表 符 








\r IA 
\E 换 页 符 
WN 


\o ”八进制 数 代 表 的 字符 

\x 十 六 进 制 数 代 表 的 字符 

\000 终止 符 ，\000 后 的 字符 串 全 部 忽略 

此 外 ， 了 Python 的 字符 串 相 比 其 他 程序 语言 多 了 一 种 描述 六 
符 串 ， 其 功能 是 将 字符 串 内 容 原 样 输出 ， 如 果 字 符 串 本 


x 
后 特殊 字符 ， 则 字符 串 无 需 使 用 转 义 和 字符。 下面 的 代码 演示 
符 的 使 用 、 字 符 串 切片 、 统 计 长 度 、 三 引号 使 用 等 操作 。 





式 ， 就 是 用 3 个 引号 标示 字 
换行 ， 则 输出 换行 ， 如 果 包 
中 文字 符 串 的 输出 、 转 义 字 








P 





H 
N 








>>> 'doesn\'t' 
"doesn't" 
>>> "\"Yes, 


\" he said." 
"Yes, 


" he said.' 
>>> print u" 你 好 ， 


Python\n 机 器 学 习 


"你 好 ， 


Python 机 器 学 习 


>>> print Ul "你 好 ， 


Python 
， 机 器 学 习 


"你 好 ， 


Python 机 器 学 习 


>>> mystr= ul fly, 


Pythonxn 机 器 学 习 


>>> print mystr 你 好 ， 
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Python 机 器 学 习 


>>> print mystr[:5] 你 好 ， 


py 
>>> print mystr[3:5] 


Py 
>>> len(mystr )###1en 函 数 计算 字符 串 长 度 





14 




















Python 字符 串 的 三 引号 表示 方式 意义 重大 ， 用 它 可 以 在 CGI (CGI 人 允许 Web 服 务 器 执 
行 外 部 程序 ， 并 将 它们 的 输出 发 送 给 web 浏览 器 ) 程序 中 轻松 输出 HTML 人 代码。 下 面 是 
CGI 的 “Hello World” 程 人 





#!/usr/bin/env python 

print "Content-Type: text/html" 
print 

print """<html> 

<body> 

<h2>Hello world!</h2> 

</body> 

</html> 








3) 列表 。Python 可 将 不 同类 型 〈 包 括 复合 类 型 本 身 ) 的 值 组 成 复合 类 型 ， 
复合 类 型 之 一 。 与 字符 串 相 同 ， SIREENIN Hh 作 ， 其 索引 也 是 从 0 开始 的 
统计 列表 的 长 度 使 用 en 函数 ， 使 用 “#> 将 生 成 新 列表 ， Ae a 
one 下 面 的 代码 演示 了 列表 的 定义 、 
R 


it 
Be 
Hh 
pan 
it 
cit 
S 
于 
wi 
8 
术 
ke 

4È 








>>> a = ['hello' 


'world', 


['hello', 


'world', 


100, 


1234] 
>>> a[:2] + ['-' 


2* 2 ] ### 连 接 列表 


['hello', 


'world', 
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4] 
>>> mylist=[1, 


23, 


45] 
>>> mylist 
[1. 


23, 


45] 
>>> mylist*2### 重 复 填充 列表 


[1, 
23, 


45, 


23, 


45] 
>>> mylist[ :2]### 列 表 切 片 


14 
>>> len(y )### 求 列表 长 度 


3 
>>> y[1] 
[12, 


13] 
>>> y[1][0] 
12 








列表 和 字符 串 也 可 称 为 序列 ， 序 列 由 若干 个 元 素 组 成 ， 每 个 元 素 的 先后 顺序 明确 ， 
不 能 更 改 。 





wawai bbt. can [7a ACHEDE 























2.Python 语 名 


1) 条 件 语 句 。i 语 名 的 作用 是 判断 条 件 是 否 成 立 ， 如 果 成 立 ， 则 执行 后 面 的 语句 
He if elif. .elif 语 名 可 用 于 对 多 个 条 件 进行 判断 ， 并 执行 最 先 满足 条 件 的 话 句 块 ， else 语 
名 表示 所 有 条 件 都 不 成 立时 执行 。 下 面 的 例子 展示 了 if 语句 的 使 用 方法 ， 功 能 是 对 输入 数 
字 的 范围 进行 判断 ， 并 将 其 中 的 负数 转变 为 0。 








>>> x = int(raw_input("Please enter an integer: ")) 
Please enter an integer: -10 
>>> if x < 0: 


x = 0 
ee print 'Negative changed to zero' 
. elif x == 0: 
Ta print 'Zero' 
. elif x == 1: 
Pe print 'Single' 
. else: 


print 'More' 





Negative changed to zero 下 面 例子 演示 了 判断 非 奇 偶数 。 


for x in range(1, 


10): 
di if x % 2 == 0: 
print x, 


'is an even number'. 


else: 
# loop fell through without finding a factor 
print x, 


"is an odd number.' 


is an even number 
is an odd number 
is an even number 
odd number 
is an even number 
is an odd number 
is an even number 
is an odd number 


OANDUOBWN- 
BH. 
JW 
o 
a 





”2) 循环 语句 。for 语 句 表示 循环 ， 它 与 C 语 言 中 的 for 语 句 略 有 不 同 。C 语 言 的 for 语 句 
可 定义 步 长 和 终止 循环 条 件 ， 而 Python 的 for 语 名 在 Python 的 序列 〈 列 表 、 字 符 串 等 ) PH 
代 ， 每 次 只 操作 其 中 一 项 。 下 面 的 代码 在 单词 列表 中 迭代 ， 每 次 迭代 输出 单词 及 其 长 度 。 





>>> # Measure some strings: 
. words = ['cat', 


"window '， 


"hello'] 
>>> for w in words: 
print w, 


len(w) 

cat 3 
window 6 
hello 5 








wawai bbt .cam DERE ATCHE 



































人 下 面 的 例子 运行 结果 是 在 列表 迭代 过 程 中 修改 了 列 





>>>words = ['cat' 
"window', 


"defenestrate' ] 
>>> for w in words[:]: 
if len(w) > 6: 
words.insert(0, 

w) 
>>> words 
['defenestrate' 

'cat', 


'window', 


'defenestrate'] 


3) ran ge 函数 。for 语 名 仪 能 在 列表 等 序列 中 进行 迭代 ， 从 表面 上 来 看 ， 它 比 C 语 言 的 
for 循 环 功能 Sf 很 多 ， 其 实 不 然 ， 有 了 range 函 数 ， 其 功能 远 比 C 语 言 言 的 for 循 环 强大 。range 
函数 可 产生 符合 某 种 规律 的 列表 等 序列 。 下 面 代码 产生 0~9 共 10 个 数字 ， 增 长 步 长 为 1。 




















>>> range(10) 
[9, 


8, 


9] 





range 函 数 还 可 以 产生 更 复杂 的 序列 ， 和 常用 调用 格式 为 ; 


range( 起 始 值 ， 终 止 值 ， 步 长 





) 
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其 中 起 始 值 和 步 长 可 以 省 略 ， 起 始 值 默认 为 0， 步 长 默认 为 1。 





>>> range(5, 


10) 
[5， 


6 


9] 
>>> range(0， 


10， 


[9， 


3 


9] 
>>> range(-10, 


-100, 


-30) 
[-10, 


-40, 


-70] 





下 面 的 代码 是 range 函 数 与 for 语 句 组 合 的 应 用 ， 输 出 列表 元 素 的 索引 及 值 。 





>>> a = ['Mary', 
"had', 
‘a’, 
'little', 


'lamb'] 
>>> for i in range(len(a)): 
print i, 
a[i] 
6 Mary 
1 had 
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下 面 的 代码 完成 1 至 10 中 奇数 的 累加 。 





>>> mysum=0 
>>> for i in range(1, 


10, 


2): 
mysum=mysum+i 
>>> mysum 
25 








4) break 与 continue。break 语 句 结束 本 层 循环 ，continue 语 句 忽略 下 面 的 语句 继 
层 的 下 次 循环 。 下 面 的 代码 使 用 break 语 句 ， 洛 找 2 至 10 以 内 (不 含 10) 的 素数 ， 如 果 不 
素数 ， 则 分 解 因数 。 





>>> for n in range(2， 


10): 
for x in range(2, 


n): 
ip if n% x == 0: 
print n, 


'equals', 


break 

if n==x+1: 
# loop fell through without finding a factor 
print n, 


'is a prime number' 
is a prime number 
is a prime number 
equals 2 * 2 
is a prime number 
equals 2 * 3 
is a prime number 
equals 2 * 4 
equals 3 * 3 


OANDUBRWNH 





下 面 的 代码 使 用 了 continue 语 句 ， 判 断 50 至 60 之 间 的 数 哪些 是 奇数 ， 哪 些 是 偶数 。 





>>> for num in range(50, 


60): 
if num % 2 == 0 
print "偶数 
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continue 
print "奇数 


59 





5) while 循 环 。 在 while 循 环 中 会 一 直 执行 后 面 的 语句 块 ， 直 到 条 件 不 满足 才 终 止 。 
下 面 的 代码 用 于 在 列表 中 循环 ， 并 输出 元 素 。 





>>> a=range(10) 
i=0 
>>> while i<10: 
print a[i]. 


i=i+1 
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8, 


9] 








6) KAGEN, Python 使 用 def 关 键 字 定义 函数 。 下 面 的 代码 定义 了 屏幕 输出 函数 
show， 参 数 是 要 输出 的 内 容 。 





>>> def show(mess="hello"): 
print mess 

>>> show() 

hello 

>>> Show(" 机 器 学 习 


") 机 器 学 习 





下 面 的 代码 定义 了 斐 波 那 契 数列 的 计算 函数 fib。 


>>> def fib(n): 
"Print a Fibonacci series up to n. 
a 





while a <n: 
print a, 


b = b, 


a+b 


>>> fib(2000) 
0112 35 8 13 21 34 55 89 144 233 377 610 987 1597 





3.Python 的 元 组 、 集 合 以 及 字典 


1) tuple 元 组 。tuple 元 组 类 似 列表 ， 不 同 的 是 它 的 内 容 不 能 修改 。Python 元 组 的 定义 
方式 是 使 用 圆 括号 包含 各 元 素 或 直接 列举 元 素 。 下 面 的 代 三 将 定义 x 为 元 组 类 型 ， 当 对 x[0] 
“Git PIA) 进行 修改 时 ， Python 解释 器 提示 错误 。 











>>> x = 10, 
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(10. 


20, 


'learn') 
>>> XL 


'learn' 

>>> x[0]=90 

Traceback (most recent call last): 
File "<stdin>", 


line 1, 


in <module> 
TypeError: 'tuple' object does not support item assignment 
>>> 








2) Sets 集 合 。 Python 使 用 方 括号 定义 Sets 集 合 集合 的 特点 是 无 重复 元 素 ， 集 合 中 的 
元 素 无 先后 顺序 ， 也 不 能 用 索引 进行 管理 。 下 面 的 代码 定义 了 二 个 水 果 列 表 ， 通 过 set 函 
数 转换 为 集合 ， 去 除 重 复元 素 。 














>>> basket = ['apple', 


‘orange’, 


‘apple’, 


"pear', 


‘orange’. 


"banana'] 
>>> fruit = set(basket) 
>>> fruit 
set(['orange' 


"pear', 


‘apple’. 


"banana']) 











下 面 的 代码 通过 in 操作 检查 成 员 与 集合 的 关系 。 








>>> "orange' in fruit ### 集 合 类 是 否 有 成 员 





‘orange' 
True 
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>>> 'crabgrass' in fruit### 集 合 类 是 否 有 成 员 





'crabgrass' 
False 








既然 是 集合 ， 当 然 能 对 它 进行 集合 的 数学 运算 。Python 集 合 文 持 union 〈 联 合 或 
) ~ intersection (ZŠ) 、difference〈 差 ) 和 sysmmetric difference (对 称 差 ) 等 操作 ， 可 
过 “-”?”、“|”、“&”、“ 人 ”操作 符 计算 集合 的 差 集 、 并 集 、 交 和 集 和 对 称 差 集 。 下 面 的 代码 演 
了 对 集合 a 和 b 的 运算 。 


ly 





通 
示 





>>> a = set('abracadabra') 
>>> b = set('alacazam' ) 
>>> a 

set(['a', 





set(['r'. 


'd', 


'b']) 


>>> a |b # FE 





set(['a'. 


>>> a&b # 交集 


set(['a', 


'c']) 


>>> aNb # 对 称 差 外 





ar 
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set(['r'. 


'd', 


'b', 


'1']) 








3) Dictionaries=# #4. Dictionaries (字典 ) 是 一 种 散 列 结构 ， 可 理解 为 Hash 〈 散 列 ) 
类 型 。 AOR TT AE ed Al me, 键 值 对 是 一 种 映射 ， 一 个 键 对 应 于 一 个 值 。 键 值 对 由 两 
个 部 分 组 成 ， 第 一 部 分 是 键 ， 人 ， 字 典 与 列表 和 元 组 不 同 ， 列 表 和 

元 组 属于 序列 ， 元 素 以 先后 顺序 来 管 字典 的 元 素 是 以 键 为 单位 对 值 进 行 管理 的 ， 第 
二 部 分 为 值 ， 值 与 键 一 一 对 应 ， 值 可 ene 同 。 


Python 使 用 花 括 号 定义 字典 ， 使 用 类 似 索引 的 方式 存 取 值 ， 但 索引 为 键 。 此 外 ， 可 
使 用 ge EFS OE, 使 用 keys es 字典 变量 存储 的 所 有 键 。 下 面 的 代码 演示 了 
一 个 学 生 学 号 的 字典 变量 ， 以 及 如 何 对 学 生 信息 进行 删除 、 查 询 等 操作 。 












































>>> tel = {' 张 三 


': 4098, 





' 李 四 











': 4139} 
>>> tel 
{'\xd5\xc5\xc8\xfd': 4098 


oe : 4139} 
>>> tel['s 


‘] 
4098 
>>> del tel[' 张 三 


q 
>>> tel[' 张 三 


Traceback (most recent call last): 
File "<stdin>", 


line 1, 


in <module> 

KeyError: '\xd5\xc5\xc8\xfd' 
>>> tel.keys() 
['\xc0\xee\xcb\xc4' ] 
>>> tel[' + 





']=1000 
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>>> tel.keys() 
['\xcd\xf5\xbb\xaa', 


"\xc0\xee\xcb\xc4' J 
>>> print tel.keys()[0]+ 








上 面 代 码 中 ，“\xcd” 等 为 汉字 在 Python 内 部 的 编码 。 
4.Python 类 


Python 语言 有 强大 的 面向 对 象 编程 能 力 。Python 和 C++ 等 语言 一 样 拥有 类 机 制 ， 
Python 类 的 定义 方式 如 下 : 





class 类 名 


A=A 初 始 值 


变量 


B=B 初 始 值 


# 下 面 定义 了 类 成 员 函 数 


def _init_(self, 


n): 
# 类 构造 函数 


def _del_(self): 
# 析 构 函数 
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1(self, #% 


n): 











店面 的 代码 定义 了 一 个 复数 类 类 Complex， 同 时 定义 了 类 的 实例 变量 x， 最 后 输出 该 变 
量 的 实 部 和 虚 部 。Complex 类 很 简单 ， 在 类 构造 函数 中 对 实 部 成 员 和 虚 部 成 员 进行 赋值 。 




















tal 





>>> class Complex: 
r=0 
i=0 
def _init_(self, 


realpart, 


per 
self.r 
self.i 

>>> x = Complex(3.0, 


realpart 
imagpart 


-4.5) 
>>> MTs 





m 


Python 的 异常 处 理 能 力 很 强大 ， 可 准确 反馈 
对 eM 操作 。 i as 常 都 是 基 类 Exception 的 成 
模块 中 定义 。Python 异 常 处 理 的 格式 如 下 : 


出 错 信 息 。 he 异常 是 对 象 ， 可 
员 ， 从 基 类 Exception 继 承 ， 在 exceptions 








try 





” # 下 面 为 可 能 发 生 异 常 的 语句 块 


except 异常 类 型 
# 下面 为 处 理 异常 的 语句 块 
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下 面 的 代码 将 检查 输入 是 否 为 有 效 数 字 。 程 序 通过 将 输入 转换 成 整 型 来 测试 是 否 为 



































BS, WAR EMS, inte Bev 将 触发 异常 ValueError, ee 输入 不 是 有 
效 数 字 ， 请 重新 输入 〈Oops!That was no valid number.Try again...) ”， 直 到 输入 正确 格式 
的 数字 后 ， 程 序 TEH. 
>>> while True: 
try: 
x = int(raw_input("Please enter a number: ")) 
break 
except ValueError: 
print "Oops! That was no valid number. Try again..." 
前 面 演 示 了 异常 的 被 动 触发 ，Python 还 能 主动 触发 异常 ， 处 理 方式 为 ， 先 通过 raise 语 
句 抛 出 异常 ， 然后 用 except 捕 提 尝 常 : ee 
a 输出 “An exception flew by!t2 后 ， 继 续 抛 出 异常 ， 以 便 给 更 外 层 的 异常 处 理 函数 继续 








>>> try: 
cera raise NameError('HiThere' ) 
.. except NameError: 
print 'An exception flew by!' 
raise 


An exception flew by! 


Traceback (most recent call last): 
File "<stdin>", 


line 2, 


in ? 
NameError: HiThere 





以 上 简要 介绍 了 Python 编程 语言 的 基本 语法 ， 它 和 C++ 有 几 分 相似 ， 有 一 定编 程 基础 
的 读者 应 该 都 能 看 情 。 aee 很 快 的 编程 语言 ， (gs ee CNL 
人 而 是 每 行 语句 前 面 的 空格 数量 。 因 此 ，Python 代 码 非常 

工整 和 漂亮 ， 它 严 烙 遵 守 代码 详 名 块 的 缩 进 原则 ， 可 依靠 缩 进 判 断 语句 块 的 范围 。 
































3.1.2 ”Numpy 库 








本 书 中 介绍 的 机 器 学 习 算 法 大 部 分 是 调用 Numpy 库 来 完成 基础 数值 计算 的 。 下 面 了 
解 一 Oe re 


1.ndarray 数 组 基础 


Python 中 用 列表 保存 一 组 值 ， 可 将 列表 当成 数组 使 用 。 此 外 ，Python 有 array 模 块 ， 但 
它 不 支持 多 维 数组 ， ee Ne 云 算 函数 ， TRE A WEEP 
学 计算 。 因 此 ， wo hon 本 号 的 数组 机 制 ， 而 是 提供 了 ndarray 数 组 对 象 ， 该 
ees 数组 ， 而 且 拥 有 丰富 的 数组 计算 函数 ， 比 如 向 量 的 加 法 、 减 法 、 乘 
法 



































使 用 ndarray 数 组 ， 首 先 需 要 导入 Numpy 函 数 库 ， 可 以 直接 导入 该 函数 库 〈 本 节 频 繁 
使 用 Numpy 库 的 函数 ， 因 此 采用 这 种 方法 ) 。 








from numpy import * 
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或 者 指定 导入 库 的 别名 。 





import numpy as np 





下 面 正式 进入 Numpy 的 数组 世界 。 如 果 没 有 说 明 ， 所 称 数组 均 为 Numpy 的 数组 对 
象 ， 与 Python 的 列表 和 array 模 块 无 关 。 


1) 创建 数组 。 创 建 数 组 是 进行 数组 计算 的 先决 条 件 ， 可 通过 arra OPA Be SS 
例 对 象 ， 其 参数 为 Python 的 序列 对 象 《比如 列表 ) 。 HALE LZ AERA, MEE S JRE 
Ae 例如 下 面 这 条 语句 定义 了 一 个 二 维 数组 ， 其 大 小 为 《2，3) ， 即 共有 2 行 ， 
行 各 3 列 。 











a = np.array([[ 1., 


2.]]) 





上 面 语句 定义 了 如 表 3-1 所 示 的 数组 。 
表 3-1 二 维 数组 结构 








接着 使 用 array0 函 数 创建 一 个 2，3) 大 小 的 数组 变量 x。 





>>> from numpy import * 
>>> x=array([[ 1., 


2.]]) 


以 刚才 定义 的 x 变 量 为 例 ， 来 熟悉 ndarray 数 组 对 象 的 主要 属性 。ndarray 数 组 对 象 拥有 
ndarray.ndim、ndarray.shape、ndarray.size、ndarray.dtype、ndarray.itemsize、ndarray.data 等 


EB 4 
ry 
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ndarray.ndim: 数组 的 维度 数 。 





>>> X.ndim 
2 





ndarray.shape: 数组 的 维 数 ， 返 回 的 格式 为 (n，m) ， 其 中 n 为 行 数 ，m 为 列 数 。 





>>> x.shape 
(2, 


3) 





ndarray.size: 数组 元 素 的 总 数 。 





>>> x.size 





ndarray. dtype: 数组 元 素 的 类 型 ， 比 如 : numpy.int32 (322%) 、numpy.int16 (16 
位 整 型 ) 及 numpy.float64 (64 位 浮 点 型 〉。 





>>> X.dtype 
dtype('float64') 








ndarray.itemsize: 数组 中 每 个 元 素 占 有 的 字 节 大 小 。 





>>> x.itemsize 
8 





ndarray.data: 数组 元 素 的 缓冲 区 。 





>>> x.data 
<read-write buffer for Ox@557EAE8 


size 48, 


offset © at Ox0561BAE0> 





下 面 是 一 个 关于 Numpy 的 ndarray 数 组 的 例子 ， 演 示 了 ndarray 数 组 的 基本 操作 。 


首先 ， 创 建 a 和 b 两 个 数组 对 象 。 其 中 ， 
列 数组 CNumpy 的 arange 函 数 与 其 参数 依次 为 开始 值 、 结 束 值 、 
Ae 并 用 reshape 函 数 创建 了 指定 形状 的 新 数组 。a 的 大 小 为 《3，5) ; b 的 大 小 为 














>>> a = arange(15).reshape(3, 


5) 
>>> a 
array([[ 90. 


1, 


2, 
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[10， 


13, 


14]]) 
>>> b = array([6， 


7 


8]) 


>>> b 
array([6， 


7 


8]) 





读 取 a 和 b 的 主要 属性 ， 如 : shape、ndim、dtype、itemsize 等 。 此 外 ， 下 面 的 代 
a 全 ate aT ROR, Moen eee 


为 numpy.ndarray。 





>>> a.shape 
(3, 


5) 
>>> a.ndim 

2 
>>> a.dtype.name 
'int32' 
>>> a.itemsize 
4 
>>> a.size 

15 
>>> type(a) 
numpy .ndarray 
>>> type(b) 
numpy .ndarray 
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最 后 ， 对 a 和 b 对 象 重 新 赋值 ， 以 便 进 一 步 了 解 ndarray 数 组 的 元 素 类 型 。 下 面 分 别 演 








示 了 int32、float64 等 类 型 的 使 用 方法 ， 最 后 演示 了 不 常见 的 复数 作为 数组 元 素 〈 数 组 c 的 


元 素 ) 的 情况 。 








>>> a = array( [2 


3 


4] ) 


>>> a 
array([2. 


3 


4]) 

>>> a.dtype 
dtype('int32') 

>>> b = array([1.2 


3.5, 


5.1]) 
>>> b.dtype 
dtype('float64') 
>>> c = array( [ [4 


2]; 


4] ]. 


dtype=complex ) 
>>> C 
array([[ 1.+0.j, 


2.+0.j], 


[ 3.+0.j, 


4.+0.j]]) 





2) 特殊 数组 。Numpy 的 特殊 数组 主要 有 以 下 几 种 : 


.Zeros 数 组 : 全 零 数 组 ， 元 素 全 为 0， 使 用 zeros 函 数 创建 。 
.ones 数 组 : 全 1 数组 ， 元 素 全 为 1， 使 用 ones 函 数 创建 。 








“empty 数 组: 空 数组 ， 元 素 全 近似 为 0， 使 用 empty 函 数 创建 。 
下 面 的 代码 依次 演示 了 全 零 数 组 、 全 1 数组 、 空 数组 的 创建 方法 。 











>>> zeros( (3 


4) ) 
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array([[0.. 


[9 .， 


[9 .， 


>>> ones( (2 


4). 


dtype=int16 ) 
array([[[ 1. 
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1]]， 


[[ 1. 


1]， 


1], 


1]]]， 


dtype=int16) 
>>> empty( (5, 


3) ) 
array([[ 1.42185083e-299 


1.41906197e-299, 


5.77420410e-300], 


[ 6.02082633e-300, 
1.41971817e-299, 


5.77379398e-300], 


[ 5.77440917e-300, 
5.77386233e-300, 


5.77440917e-300], 
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[ 5.77386233e-300, 


5.77440917e- 300, 


5.77386233e-300], 


[ 1.42130399e-299, 


5.77440917e- 300, 


5.77406740e-300]]) 











3) Beit AS 经 提 到 过 arange 函 数 ， 它 与 Python 的 range 函 数 相似 ， 但 它 属于 

， 其 参数 依次 为 开始 值 、 结 束 值 、 步 长 。 此 外 ， in) (i illinspacens 86 JÆ 
L A E E T T OCT orange 
E 去 。 





N ey 

















>>> arange( 10, 
30, 


5 ) 
array([10, 


15, 
20, 


25]) 
>>> arange( 0, 


1.8]) 
>>> linspace( 0, 
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9 个 数字 


array([ 0. 
0.25, 
9.5 ， 


0.75, 


1.25, 


1.75, 


2: 
>>> x = linspace( 0, 


2*pi, 

100 ) HM 
9 到 
2*pi 共 


100 个 数字 








4) 输出 数组 。 可 使 用 print 输 出 Numpy 的 数组 对 象 。 下 面 的 代码 是 一 维 数组 的 创建 和 


从 出 。 





>>> a = arange(6) # 一 维 数 组 


>>> print a 
[012345] 








j 下 面 的 代码 是 二 维 数组 的 创建 和 输出 ， 从 输出 结果 可 清晰 地 看 出 b 的 大 小 为 〈4， 





>>> b = arange(12).reshape(4, 
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3) # 二 维 数组 


>>> print b 








数组 索引 。 y 数 组 的 每 个 元 素 、 每 行 元 素 、 每 列 元 素 都 可 以 用 索引 访问 ， 不 
E EMOTE, Hoi, Ibs Or D > ERAT BLL CRA 
[1，0]。 FLL RARU TORCH AI OUR. AURRI 


首先 创建 三 维 数组 c， 并 输出 其 元 素 。 











>>> c = arange(24).reshape(2, 


3 


4) # 三 维 数组 


>>> print c 


[8 9 10 11]] 
[[12 13 14 15] 
[16 17 18 19] 
[20 21 22 23]]] 








三 维 数组 c 可 表示 为 如 图 3-1 所 示 的 形式 。 


TT 


1o ni 


Annonces 


图 3-1 三 维 数组 c 


Pg tATu EA TAUN ER 1 Teal 索引 中 的 “:” 表 示 该 维度 内 的 
所 有 元 素 。 对 照 图 3-1， 查 找 索 引 [1，2，:] 处 (第 2 行 第 3 列 》 PPE TERARI, 1, 2] 
处 的 元 素 ， 可 得 出 元 素 为 [20，21，22，23] 和 6。 下 面 编 写 代 码 验 证 一 














>>> print c[1, 


2 


:] 
[20 21 22 23] 
>>> print c[0， 
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1 


2] 
6 








6) 数组 运算 。 数 组 的 加 减 乘除 以 及 乘 方 运算 方式 为 ， 相 应 位 置 的 元 素 分 别 进行 计 
算 。 比 如 : 


数组 加 法 : array([20，31，42，53])=array([20，30，40，50])+array([0，1，2，3]) 
数组 减法 : array([20，29，38，47])=array([20，30，40，50])-array([0，1，2，3]) 
数组 乘法 : array([[2，0]，[0，4]])=array([[1，1，[0，1T])*array([[2，0]，[3，4]]) 
数组 乘 方 : array([0，1，2，3]) 的 二 次 方 =array([0，1，4，9]) 


数组 除法 : array([20., 15., 13.33333333, 12.5])=array((20, 30, 40, 50])/array([1, 
2, 3; 4) 


下 面 的 代码 演示 了 数组 的 加 、 减 、 乘 、 除 及 更 多 运算 〈 关 键 代 码 处 注释 了 运算 类 











y 





>>> a = array( [20, 
30, 
40, 


50] ) 
>>> aa = arange(1, 


5) 
>>> a/aa### 除 法 


array([ 20. 
15. 


13. 33333333, 


12.5 ]) 
>>> 
>>> b = arange( 4 ) 
>>> b 
array([0， 

1, 


2, 


3]) 
>>> C = a-b### 减 法 


>>> C 
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array([20, 


29, 


38, 


47]) 
>>> bx**2### 乘 方 


array([0 


4, 


9]) 


>>> 10*sin(a )### 数 乘 ， 


Sin 函 数 为 正弦 函数 


array([ 9.12945251 


-9.88031624, 


7.4511316 


-2.62374854] ) 


>>> a<35### 指 定 条 件 判 断后 4 


array([True, 
True, 
False, 
False], 


dtype=bool) 
>>> A = array( [[1 


1], 
[0， 


1]] ) 
>>> B = array( [[2 


0], 
[3， 


4]] ) 





成 相应 的 布尔 数组 
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>>> Ar*B### 乘 法 


array([[2， 
0]; 
[0， 
4]]) 


>>> #dot 表 示 乘 积 。 对 一 维 数组 计算 的 是 点 积 ， 


e e HIERIE ETER 


. dot(A, 


B) 
array([[5， 


4], 


[3， 


4]] ) 


>>> a = ones((2, 


3)， 


dtype=int )###Oones 函 数 创建 全 


1 数组 ， 指 定 元 素 类 型 为 


int 
>>> b = random.random( (2, 





3 ) )### 创 建 随机 数组 ， 指 定 大 小 为 


(2, 


3) 
>>> a *= 3### 数 乘 


>>> a 
array([[3， 


[3， 


wwwrai bbt. cam DRIA 


对 二 维 数组 计算 的 是 矩阵 乘积 


Crete 

















3]] ) 
>>> b += a### 加 法 


>>> b 
array([[ 3.69092703, 


3.8324276 , 


3.0114541 ]， 


[ 3.18679111, 


3.3039349 , 


3.37600289]]) 
>>> a += b  ### 加 法 


>>> a 
array([[6. 


6, 


6]. 


[6， 


6]] ) 


>>> a = random.random( (2, 


3)) 


>>> a 
array([[ 0.6903007 , 


0.39168346, 


0.16524769], 


[ 0.48819875, 


0.77188505, 


0.94792155]]) 
>>> a. Sum( )### 求 和 


3.4552372100521485 
>>> a.min( )### 求 最 小 值 


wana bbt . cam 




















mére 

















0.16524768654743593 
>>> a.max( )### 求 最 大 值 


0.9479215542670073 





7) 数组 的 拷贝 。 数 组 的 拷贝 分 为 浅 拷贝 和 深 找 贝 两 种 ， 浅 拷贝 通过 数组 变量 的 赋值 
完成 ， 深 拷贝 使 用 数组 对 象 的 copy 方 法 。 


小 找 贝 只 拷贝 数组 的 引用 ， 如 果 对 拷贝 进行 修改 ， 源 数组 也 将 修改 。 下 面 的 代码 演 
示 了 浅 拷贝 的 方法 。 





>>> a=ones((2, 


3)) 


>>> a 
array([[ 1.. 


1.]]) 
>>> b=a###b 为 


a 的 浅 拷贝 


>>> b[1, 


2]=2 
>>> a 
array([[ 1.. 


array([[ 1., 


1.， 


iTi 
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Lig 
2.]]) 


深 拷 贝 会 复制 一 份 和 源 数组 一 样 的 数组 ， 新 数组 与 源 数 组 不 会 存放 在 同一 内 存 位 置 
中 ， 因 此 ， 对 新 数组 的 修改 不 会 影响 源 数组 。 下 面 的 代码 演示 了 b 使 用 copy 方 法 从 源 数 组 a 
复制 一 份 拷 贝 的 情况 。 可 以 看 到 ， 修 改 b 后 ，a 仍 然 不 变 。 











>>> a=ones((2， 


3)) 
>>> b = a.copy() 
>>> b[1, 


2]=2 
>>> a 
array([[ 1.. 


2.]]) 





2. 和 矩阵 








AEE BE mpy 的 年 阵 对 象 上 GRA RAW, ERASE FT, EREXIT RAY 
计算 过 SEM BOE AEE 矩阵 使 用 matrix 函 数 创 建 ， 以 〈2，2) 大 小 的 矩阵 〈2 行 2 
AD 为 例 ， 可 用 以 下 两 种 方式 定义 参数 : 


' 第 1 行 第 1 列 元 素 第 1 行 第 2 列 元素 ; 第 2 行 第 1 列 元 素 第 2 行 第 2 列 元 素 ' 
[[ 第 1 行 第 1 列 元素 ， 第 1 行 第 2 列 元 素 ]，[ 第 2 行 第 1 列 元 素 ， 第 2 行 第 2 列 元 素 ] 


` 
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下 面 的 代码 演示 了 和 窍 阵 的 创建 及 类 型 查询 方法 。 





>>> A = matrix('1.0 2.0; 3.0 4.0' )### 和 矩 阵 


A 

>>> A 

[[ 1. 2.] 

[ 3. 4.]] | 

>>> B = matrix([[1.9. 


2.0], 
[3.0, 
4.0] JAEN 


B 
>>> B 
matrix([[ 1., 


2.1]， 


[ 3.， 


4.11) | 
>>> type(A) # 查询 


A 变量 的 类 型 


<class 'numpy.matrixlib.defmatrix.matrix'> 








2) ERST. MERR SRA TERA RSG. PAY RS TB AN TERE 
的 基本 运算 《〈 请 先导 入 numpy 库 再 执行 以 下 代码 ) 。 





>>> A.T # 转 置 


] 
trix('5.0 7.0') 
T # 转 置 


[7.]] 
>>> print A*Y HEE EE YI 


>>> print A.I HERE 


[[-2. 1. ] 
[ 1.5 -0.5]] 
>>> solve(A, 
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Y) # 解 线性 方程 组 


matrix([[-3.], 


[ 4.11) 





© 注意 ”关于 Numpy 及 其 函数 的 更 多 信息 可 查阅 Numpy 官 网 : 


http://wiki.scipy.org/Numpy Example List 





3.1.3 pylab、matplotlib 绘 图 

为 了 验证 算法 的 有 效 性 ， 机 器 学 习 通常 需要 进行 绘图 ，pylab、matplotlib 等 模块 是 专 
业 的 Python 绘 图 模块 。 
1.sin 函 数 绘制 

在 二 维 坐 标 系 中 绘图 的 基本 方式 是 使 用 plot 方 法 ， 其 参数 分 别 为 x 轴 数值 、y 轴 数值 ， 


以 是 单个 数 也 可 以 是 Numpy 的 一 维 数 组 对 象 。 下 面 的 代码 演示 了 sin 函 数 图 














import numpy as np 
import matplotlib.pyplot as plt 
x = np.arange(0, 


5 


0.1); 
y = np.sin(x) 
plt.plot(x, 


y) 


dn 13-2 as Asin Ph ROR A, SORE Ems, HART, EER A bs RGR 
绘制 参数 已 进行 自动 调整 。 


2.cos 函 数 绘制 
下 面 的 代码 使 用 plot 方 法 绘制 cos 函 数 图 像 。 











import numpy as np 
import matplotlib.pyplot as plt 
x = np.arange(0, 


5 


0.1); 
= np.cos(x) 
plt.plot(x, 


y) 
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plt.show() 





绘图 效果 如 图 3-3 所 示 。 


hOO+¢ BEF 





图 3-2 sin 函数 图 像 效 果 图 
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图 3-3 cos 函数 图 像 效 果 图 


进一步 扩充 图 3-3 所 示 cos 函 数 绘制 范围 ， 将 自 变 量 x 的 范围 扩大 到 [-8，8]， 三 角 函 数 
cos 图 像 的 周期 性 一 目 了 然 ， 如 图 3-4 所 示 。 下 面 是 绘制 代码 。 








import numpy as np 
import matplotlib.pyplot as plt 
x = np.arange(-8, 


8, 


0.1); 
y = np.cos(x) 
plt.plot(x, 


y) 
plt.show() 
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图 3-4 cos 函数 周期 图 像 
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3.1.4 图 像 基 础 


1. 数 字 图 像 


数字 图 像 是 指 将 二 维 图 像 用 有 限 数字 的 数值 像素 表示 ， 像 素 表 面 上 看 起 来 不 像 分 离 
的 点 ， 但 实质 它们 就 是 点 。 例 如 ， 图 3-5 所 示 的 树叶 写真 就 是 由 很 多 像素 点 组 成 的 ， 但 用 
肉眼 无 法 观察 到 像素 点 的 存在 。 


我 们 使 用 一 款 取 像 素 的 软件 对 图 3-5 进 行 分 机 ， 如 图 3-6 所 示 。 可 以 看 到 ， 线 的 十 字 交 
又 处 就 是 一 个 像素 点 ， 软 件 显 示 ， 在 图 像 的 [459，530] 处 像素 点 的 值 为 《64，77，67) 。 
中 间 是 放大 的 这 部 分 图 片区 域 ， 放 大 后 ， 图 像 仿 佛 由 一 个 个 小 的 颗粒 组 成 ， 将 这 些 颗 粒 进 
下 
Z A HJITTE J o 


(64, 77; 67) 就 是 图 3-6 中 某 点 的 像素 值 。 每 个 像素 点 可 有 各 自 的 颜色 值 ， 可 采用 
三 原色 显示 ， 因 而 义 分 成 红 、 绿 、 蓝 三 个 子 像素 (RGB 色 域 》， 或 者 青 、 品 红 、 黄 和 黑 
CCMYK 色 域 ) ， 通 常 计算 机 的 图 像 采 用 的 像素 标准 为 红 、 绿 、 蓝 三 个 子 色 。 图 3-6 所 未 
十 字 交 叉 处 的 像素 值 含义 为 : 红色 值 为 64， 绿 色 值 为 77， 蓝 色 值 为 67。 


4 
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[459，530] 
64, TT, 67 





图 3-6 树叶 放大 的 颗粒 效果 【〔 附 彩 图 ) 
分 辩 率 是 度量 图 像 内 数据 量 多 少 的 一 个 参数 ， 通 常 表示 成 每 英寸 像素 数 和 每 英寸 点 
数 。 分 辨 率 越 高 ， 图 像 包 含 的 数据 越 多 ， 就 越 能 表现 更 丰富 的 细节 ， 图 形 文 件 就 越 大 。 从 
了 3-7 能 较 直 观 地 看 出 这 个 效果 ， 随 着 分 辨 率 的 增加 ， 字 母 R 越 来 越 清晰 。 


5x5 10x10 20x20 50x50 100x100 


图 3-7 R 字 母 在 不 同 分 辨 率 下 的 效果 
2.OpenCV 的 Python 绑 定 库 实例 


假设 图 像 的 分 辨 率 为 800x600， 则 每 一 条 水 平 线 上 包含 有 800 个 像素 点 ， 共 有 600 条 
线 ， 在 计算 机 中 可 以 使 用 一 个 800 列 600 行 的 数组 米 表 示 访 图像。 数组 的 每 不 元 素 就 是 一 个 
像素 点 ， 比 如 ， 第 100 行 第 200 列 的 元 素 就 是 图 像 的 第 100 条 水 平 线 第 200 个 像素 点 的 像素 
值 。 那么 如 何 提取 图 像 中 的 像素 值 呢 ? 


可 以 使 用 OpenCV 的 Python 绑 定 库 完 成 这 些 操 作 。OpenCV 作 为 跨 平 台 的 计算 机 视觉 
拥有 包括 500 多 个 跨 平 台 图 像 处 理 的 中 、 高 层 API， 对 图 像 像 素 的 读 写 自然 不 在 话 
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使 用 OpenCV 函 数 库 之 前 ， 需 要 先导 入 其 Python 绑 定 库 。 


import cv2 


hl pe a nt 
每 个 像素 点 的 值 由 蓝 色 值 、 绿 色 值 、 红 色 值 3 个 部 分 组 成 ， 三 色 值 组 合成 一 个 一 维 数组 
假设 图 像 的 度 《 行 数 ) HoH, Fi UID ew, MARGA NCA RHRAERE A 
HxWx3，A 图 像 矩阵 可 表示 H 行 W 列 〈 共 HxW 个 ) 像素 点 的 组 


sc ea ene aie ae. 











WwWVai bbt .cam OAA TAE 


下 访问 : 





img_a[150， 
20, 
:] 


下 面 的 代码 中 第 1 行 是 150 行 20 列 处 像素 的 蓝 色 值 ， 第 2 行 是 150 行 20 列 处 像素 的 绿色 
值 ， 第 3 行 是 150 行 20 列 处 像素 的 红色 值 。 








blue=img_a[150, 


20, 


9] 
green=img_a[150, 


20, 


1] 
red=img_a[150, 


20, 


2] 





下 面 以 几 个 经 典 实例 演示 OpenCV 的 Python 绑 定 库 的 使 用 方法 。 


1) 显示 图 像 。 程 序 原 理 是 ， 首 先 使 用 imread (文件 和 名》 读 取 图 像 文 件 ， 生 成 图 像 矩 
阵 ， 然后 调用 imshow 方 法 显示 图 像 ， 调用 waitKe 竺 按键， 最 后 调用 
destroyAlIWindows0) 销 毁 窗 口 ， 这 样 可 方便 查 














#!/usr/bin/env python 
#3-1.py 
import cv2 
fn="test1.jpg" 
if name__ == '__main__': 
print 'http://blog.csdn.net/myhaspl 





print 'myhaspl@qq.com' 
print 

print 'loading %s ...' % fn 
img = cv2.imread(fn) 
cv2.imshow('preview', 


img) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 





效果 如 图 3-8 所 示 。 


2) 随机 生成 像素 。 程 序 的 原理 是 ， 首 先 产 生 空 图 像 矩 了 泗 ， 然 后 确定 矩阵 的 2000 个 随 
机 位 置 ， Y 下 面 是 源 代 码 。 
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#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
# 随 机 生成 像素 点 





#3-2.py 
# 导 入 


numpy 和 


opencv 函 数 库 


import numpy as np 

import cv2 

if name == ' main 
## 行 数 





sz1 = 200 
# 列 数 


sz2 = 300 
print U' 产 生 空 图 像 矩 阵 





(%d*%d) ...' % (sz1, 


sz2) 
# 产 生 空 图 像 矩 阵 ， 大 小 为 





sz1*sz2( {7X 


* 列 数 


) ， 本 程序 为 


200*300 
img =np.zeros((sz1 


SZ2， 


3)， 


np.uints) 
posi=np.random. randint (200, 


size=(2000, 


1) )### 行 位 置 随机 数组 


pos2=np. random. randint (300, 


size=(2000, 


1) AAAI BLA 
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Crete 

















# 在 随机 位 置 处 设置 像素 点 值 


for i in range(2000): 
img[pos1[i]. 


pos2[i], 


[0] ]=np. random. randint (0, 


255) 
img[pos1i[i]. 


pos2[i]. 


[1] ]=np.random. randint (0, 


255) 
img[posi[i]. 


pos2[i]. 


[2] ]=np. random. randint(0, 


255) 


cv2.waitKey() 
# 销 毁 窗 














cv2.destroyAllwindows( ) 


| 
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图 3-8 ”显示 图 像 
随机 产生 像素 点 后 ， 创 建新 窗口 并 显示 含 彩色 雪花 点 的 图 像 ， 运 行 以 上 代码 : 


产生 空 图 像 矩阵 








(200*300) ... 





效果 如 图 3-9 所 示 。 
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3) 获取 图 像 大 小 。 





图 3-9 ”随机 产生 若干 像素 点 〈 附 彩 图 ) 


程序 通 


IRRI pE 的 shape 属 性 获取 图 像 大 小 ， 





h 
组 ， 元 组 的 第 1 个 元 索 为 高 度 ， 第 2 个 元 系 为 宽度 ， 第 3 个 元 窒 为 3《 像 案值 由 三 


Bo) 。 











#!/u 
#-*- 


#3-3. 


impo 
impo 
fn=" 
if 


sr/bin/env python 
coding: utf-8 -*- 
py 

rt cv2 

rt numpy as np 
test2.jpg" 

name__ == '_ main 





sz1) 


运行 效果 如 下 ， 程 序 


load 


print ‘loading %s ... 


img = cv2.imread(fn) 
# 获 取 图 像 矩 阵 大 小 














sp=img.shape 
print sp 
# 高 度 ， 即 行 数 


szi=sp[0] 
# 宽 度 ， 即 列 数 


sz2=sp[1] 


' % fn 


print 'width:%d\nheight :%d'%(sz2, 





ing test1.jpg ... 


(435 


656, 
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返回 图 像 的 高 为 435， 宽 为 656。 


mére 

















eia [tup ~ 
原色 组 


3) 
width:656 
height :435 





4) 调节 图 像 亮度 。 调 节 的 原理 是 ， 将 像素 值 变 小 ， 则 将 亮度 调 小 ， 全 部 色彩 变 暗 ; 
将 像素 值 变 大 ， 则 将 亮度 调 大 ， 全 部 色彩 变 亮 。 








#!/usr/bin/env python 

#-*- coding: utf-8 -*- 

#3-4.py 

import cv2 

import numpy as np 

fn="test1.jpg" 

if name__ == '__main__': 
print 'loading %s ...' % fn 
print u' 正 在 处 理 中 








img = cv2.imread(fn) 
w=img.shape[1] 
h=img.shape[0] 

ii=0 

# 将 全 部 色彩 变 暗 





for xi in xrange(0, 


w): 
for xj in xrange (0, 
h): 
# 将 像素 值 整 体 减 少 ， 设 为 原 像素 值 的 
20% 
img[xj, 
xi, 


0]= int(img[xj. 


xi; 


0]*0.2) 
img[xj, 


xi, 


1]= int(img[xj. 


xi, 


1]*0.2) 
img[xj, 


xi, 
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2]= int(img[xj. 


xi, 


2]*0.2) 
# 显 示 进 度 条 


if xi%10==0 :print '.', 


cv2.namedwWindow('img' ) 
cv2.imshow('img' 


img) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 
print'' 
print u' 正 在 处 理 中 





# 将 全 部 色彩 变 亮 





for xi in xrange(0, 


w): 
for xj in xrange (0, 
h): 
# 将 像素 值 整体 增加 ， 设 为 原 像素 值 的 
1020% 
img[xj, 
xi, 


0]= int(img[xj. 


xi, 


0]*10.2) 
img[xj, 


xi, 


1]= int(img[xj. 


xi, 


1]*10.2) 
img[xj- 


xi, 
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2]= int(img[xj. 
xi, 


2]*10.2) 
if xi%10==0 :print '.', 


# 显 示 图 像 


cv2.namedwindow( 'img' ) 
cv2.imshow('img' 


img) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 





， 上 直面 程序 将 图 像 每 个 像素 值 减少 ， 实 现 图 像 亮度 变 蜡 的 效果 ， 如 图 3-10 所 示 。 然 后 
每 个 像素 值 增 大 ， 实 现 图 像 亮度 变 亮 的 效果 。 


如 图 3-11 所 示 为 图 像 变 亮 效果 ， 因 为 像素 值 过 大 ， 已 经 出 现 失真 现象 。 








图 3-10 ”图 像 变 暗 〈 附 彩 图 ) 
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图 3-11 图 像 变 亮 


D 图 像 日 落 效果 。 日 落 效果 的 生成 原理 很 简单 ， 将 蓝 色 值 和 绿色 值 设 为 原来 的 


WER) 


70%, ACEPTE, WARM Nimg. (RIBA F: 








# 生 成 日 落 效果 


for xi in xrange(0, 


w): 
for xj in xrange (0, 
h): 
img[xj, 
xi, 


0]= int(img[xj. 


xi, 


9]*g9 .7 )### 蓝 色 值 为 原来 的 


70% 
img[xj- 


xi, 
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1]= int(img[xj. 


xi, 


1]*0. 7) HHH Ce fy BEI 





70% 


完整 代码 如 下 : 


#!/usr/bin/env python 

#-*- coding: utf-8 -*- 

#3-5.py 

import cv2 

import numpy as np 

fn="test1.jpg" 

if name__ == ' main__': 
print 'loading %s ...' % fn 
print u' 正 在 处 理 中 











img = cv2.imread(fn) 
w=img.shape[1] 
h=img.shape[0] 

ii=0 

# 生 成 日 落 效果 





for xi in xrange(0, 


w): 
for xj in xrange (0. 
h): 
img[xj- 
xi, 


0]= int(img[xj. 


xi, 


9]*9 .7 )### 蓝 色 值 为 原来 的 





70% 
img[xj, 


xi, 


1]= int(img[xj. 


xi, 


1]*0.7) HHA Ce fy BEI 
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if xi%10==0 :print '.', 


# 显 示 图 像 


cv2.namedWindow('img' ) 
cv2.imshow('img' 


img) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 





运行 效果 如 图 3-12 所 示 。 





图 3-12 ”图像 日 沙 效 果 〈 附 彩 图 ) 


6) 负片 与 水 印 效果 。 生 成 负片 的 原理 是 ， 将 像素 的 三 色 值 设 为 (255- 原 值 ) 。 设 图 
像 和 矩阵 为 img， 代 码 如 下 : 


HERTA 
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r = cv2.split(img) 
b=255-b 
g=255-g 
r=255-r 





， 水 印 效果 的 原理 是 ， 调 用 putText 函 数 ， 以 图 像 矩阵 为 第 1 个 参数 ， 输 出 内 容 为 第 2 个 
参数 ， 在 图 像 上 直接 输出 水 印 文字 。 代 码 如 下 : 





# 加 上 水 印 


cv2.putText(img, 
"machine learning", 
(20, 

20), 


cv2.FONT_HERSHEY_PLAIN 


0), 


thickness = 2) 
cv2.putText (img, 


"Support Vector Machines(SVMs)is an algorithm 
of machine learning.". 


(20, 
100), 


cv2.FONT_HERSHEY_PLAIN 


0), 


thickness = 2) 
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负片 与 水 印 效果 的 完整 代码 如 下 : 





#!/usr/bin/env python 

#-*- coding: utf-8 -*- 

#3-6.py 

import cv2 

import numpy as np 

fn="test1.jpg" 

if name__ == ' main__': 
print 'loading %s ...' % fn 
print u' 正 在 处 理 中 











# 读 取 图 像 文 件 


img = cv2.imread(fn) 
# 获 取 图 像 大 小 


w=img.shape[1] 
h=img.shape[0] 
ii=0 

# 生 成 负片 





r = cv2.split(img) 
b=255-b 
g=255-g 
r=255-r 
# 直 接 通过 索引 改变 色彩 分 量 


img[ :， 


2]=r 
# 加 上 水 印 


cv2.putText (img, 
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"machine learning", 
(20, 
20), 


cv2.FONT_HERSHEY_PLAIN 


0), 


thickness = 2) 
cv2.putText (img, 


"Support Vector Machines(SVMs)is an algorithm 
of machine learning.". 


(20, 
100), 
cv2.FONT_HERSHEY_PLAIN， 


1.0, 


0). 


thickness = 2) 
cv2.namedwindow( 'img' ) 
cv2.imshow('img' 


img) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 





运行 效果 如 图 3-13 所 示 。 
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图 3-13 fr AIK ED MERD 


D 图 像 平 铺 。 图 像 平 铺 的 原理 是 ， 首 先 计算 平 铺 后 的 图 像 大 小 ， 生 成 同样 大 小 的 空 
自 图 像 ， 然 后 在 空白 图 像 中 逐个 像素 复制 图 像 ， 直 接 将 空白 图 像 像素 值 设置 为 平 销 后 该 位 
置 对 应 的 像素 值 ， 复 制 的 顺序 是 逐 行 复制 ， 横 向 平 铺 5 个 图 像 ， 纵 向 平 铺 2 个 图 像 ， 最 后 显 
示 图 像 效果 。 下 面 是 完整 代码 : 

















#!/usr/bin/env python 

#-*- coding: utf-8 -*- 

#code:myhaspl@qq.com 

#3-7.py 

import cv2 

import numpy as np 

fn="test.png" 

if __name__ == '_ main 
print 'loading %s ...' % fn 
print “正在 处 理 中 








img = cv2.imread(fn) 
w=img.shape[1] 
h=img.shape[0] 

# 横 向 平 铺 
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5 个 图 像 


szi=w*5 
# 纵 向 平 铺 





2 个 图 像 





# 创 建 空 白 图 像 ， 然 后 将 图 片 排列 














myimg1=np.zeros((Sz0， 


szi, 


3)， 


np.uints) 
# 逐 个 像素 复制 


img_x=0 
img_y=0 
for now_y in xrange(0 


sz0): 
# 增 加 行 数 
for now_x in xrange(0， 
sz1): 
# 复 制 对 应 位 置 的 图 像 像素 点 
myimg1[now_y， 
now_X， 


9]=img[img_y， 


Img_X， 


9] 
myimg1[now_y， 


now_x, 


1]=img[img_y. 


img_x, 


1] 
myimg1[now_y, 
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now_X， 
2]=img[img_y， 
img_x, 


2] 
# 增 加 列 数 


img_x+=1 
if img_x>=w: 
img_x=0 
img_y+=1 
if img_y>=h: 
img_y=0 
print '.', 


cv2.namedwindow( 'img1' ) 
cv2.imshow('imgi' 


myimg1) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 





运行 效果 如 图 3-14 所 示 。 





图 3-14 ”图 像 平 铺 


8) 转 置 并 平 铺 图 像 。 与 刚才 的 例子 相似 ， 但 多 了 一 步 转 置 操 作 。 转 置 的 原理 是 将 图 
像 矩阵 转换 为 它 的 转 置 窍 阵 ， 转 置 算 法 是 将 新 图 像 窍 阵 巾 ，w] 处 的 像素 设 为 原 图 像 矩阵 
[w， 风 EE HEERE ， 相 当 于 和 矩阵 转 置 的 算法 。 设 myimgl 为 图 像 窍 





for now y in xrange(0, 


sz0): 
for now x in xrange(0， 
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sz1): 
myimg1[now_x. 


now_y， 


:]=img[img_y, 


img_x, 


转 置 并 平 铺 图 像 完整 代码 如 下 : 


#!/usr/bin/env python 

#-*- coding: utf-8 -*- 

#code:myhaspl@qq.com 

#3-8.py 

import cv2 

import numpy as np 

fn="test.png" 

if name__ == ' main__': 
print ‘loading %s ...' % fn 
print 'working', 





img = cv2.imread(fn) 
w=img.shape[1] 
h=img.shape[0] 
#W 为 宽度 ， 


h 为 高 度 


sz1=w*2 
sz0=h*3 
# 创 建 空白 图 像 ， 然 后 将 图 片 排列 


























myimg1=np.zeros((sz1, 


sz0, 


3)， 


np.uints) 
# 翻 转 并 生成 图 像 





# 逐 个 复制 像素 


img_x=0 
img_y=0 
for now_y in xrange(0 


sz0): 
for now x in xrange(0 


sz1): 
# 旋 转 图 像 
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myimg1[now_x， 


now_y， 

:]=img[img_y， 

Img_X， 

E] , 
img_x+=1 
# 新 的 一 次 平 铺 





if img_x>=w: 
img_x=0 
img_y+=1 
# 新 的 一 次 平 铺 





if img_y>=h: 
img_y=0 
print '.', 


cv2.namedwindow( 'img1' ) 
cv2.imshow('imgi' 


myimg1) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 





运行 效果 如 图 3-15 所 示 。 





图 3-15 ”图 像 旋转 和 平 铺 


3.1.5 图像 融合 与 图 像 镜 像 
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本 节 的 两 个 例子 是 对 上 节 内 容 精 华 的 总 结 ， 较 好 地 综合 了 OpenCV 的 基础 功能 。 
1. 图 像 融 合 


图 像 融 合 的 原理 是 ， 让 新 图 像 的 每 个 像素 成 为 两 个 源 图 像 中 对 应 像素 的 平均 值 之 
Al, BU: 将 两 个 图 像 的 像素 值 取 50% 后 相 加 。 为 简化 计算 ， 直 接 选 取 其 中 一 Nea 
MAR, wr AAEM Amyimg2, FSU F: 


# 每 个 像素 为 

















2 个 像素 的 平均 值 





for y in xrange(0 


sz0): 
for x in xrange(0 
sz1): 
myimg2[y. 
X: 
:]=myimg1[y， 
X， 


:]*0.5+myimg2[y, 


:]*0.5 








完整 代码 如 下 《关键 之 处 有 注释 〉: 





#!/usr/bin/env python 

#-*- coding: utf-8 -*- 

#code:myhaspl@qq.com 

#3-9.py 

import cv2 

import numpy as np 

fni="he1.jpg" 

fn2="he2.jpg" 

if name__ == '_ main__': 
print 'working', 





myimg1 = cv2.imread(fn1) 
myimg2 = cv2.imread(fn2) 
# 取 得 图 像 大 小 


w=myimg1.shape[1] 
h=myimg1.shape[0] 
sz1=w 

sz0=h 

# 每 个 像素 为 





2 个 像素 的 
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59% 之 和 ， 进 行 图 像 融合 











for y in xrange(0， 


sz0): 
for x in xrange(0， 
sz1): 
myimg2[y， 
X， 
:]=myimg1[y， 


:]*0.5+myimg2[y, 


print '.' 


cv2.namedwindow( 'img2' ) 
cv2.imshow('img2' 


myimg2) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 





效果 如 图 3-16 所 示 。 





图 3-16 ”图 像 融 合 


2. 图 像 镜像 
图 像 纵 向 镜像 的 原理 是 ， 首 先 获 取 图 像 的 宽度 ， 将 宽度 的 50% 取 整 后 作为 图 像 的 纵 


向 中 线 ; 然后 以 中 线 为 轴 ， 将 图 像 左 边 反 向 复制 到 图 像 右 右边 ， 使 图 像 最 右边 一 列 的 像素 点 
等 于 图 像 最 左边 一 列 的 像素 点 。 比 如 ， 图 像 大 小 为 200x300 (高 200， 宽 300)〉 ， 第 180 行 


(高 
a 170，:]) 的 像素 点 值 为 第 180 行 第 130 列 的 像素 点 值 〈300- 
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纳 向 镜像 与 纵向 镜像 类 似 ， 不 同 之 处 在 于 将 高 度 的 50% 





取 整 后 作为 图 像 的 横向 中 


线 ， 复 制 时 是 最 下 边 一 行 的 像素 点 值 等 于 最 上 边 一 行 的 像素 点 值 


纵 回 镜像 可 按 如 下 形式 编写 代码 : 


# 纵 向 生成 镜像 








mirror_w=w/2 
for j in xrange(0 


h): 
for i in xrange(0 
mirror_w): 
img[j. 
i 
:]=img[j- 
w-i-1 





下 面 的 代码 演示 了 图 像 的 纵 回 镜像 。 





#!/usr/bin/env python 

#-*- coding: utf-8 -*- 

#code:myhaspl@qq.com 

#3-10.py 

import cv2 

import numpy as np 

fn="test1.jpg" 

if name__ == '__main__': 
print 'loading %s ...' % fn 
print “正在 处 理 中 








img = cv2.imread(fn) 
w=img.shape[1] 
h=img.shape[0] 

ii=0 

# 纵 向 生成 镜像 





mirror_w=w/2 
for j in xrange(0 


h): 
for i in xrange (0, 


mirror _w): 
img[j; 
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# 显 示 图 像 


cv2.namedWindow('img' ) 
cv2.imshow('img'. 


img) 
cv2.waitKey() 
cv2.destroyAllWindows() 





运行 效果 如 图 3-17 所 示 。 





- 


图 3-17 


图 像 镜 像 





3.1.6 ”图像 灰 度 化 与 图 像 加 噪 
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1. 图 像 灰 度 化 
图 像 灰 度 化 的 原理 是 ， 彩 色 图 像 中 的 每 个 像素 的 颜色 由 R、G、B 三 个 分 量 决定 ， 而 





D 求 出 每 个 像素 点 的 R、G、B 三 个 分 量 的 平均 值 ， 然 后 将 这 个 平均 值 工 也 给 这 个 像 
素 的 三 个 分 量 。 


”2) 根据 RGB 和 YUV 颜 色 空 间 的 变化 关系 ， 建 立 亮 度 Y 与 R、G、B 三 个 颜色 分 量 的 对 
应 关系 : Y=0.3R+0.59G+0.11B， 以 这 个 亮度 值 表达 图 像 的 灰 度 值 。 


OpenCV 有 相关 的 函数 cvtColor， 用 它 可 直接 完成 灰 度 化 操作 。 设 img 为 源 图 像 矩 阵 ， 
myimg1 为 灰 度 化 后 的 目标 图 像 算 阵 ， 编 写 代码 如 下 : 


# 复 制 并 转换 为 灰 度 化 图 像 














myimg1=cv2.cvtColor (img, 


cv2.COLOR_BGR2GRAY) 


下 面 的 代码 演示 了 图 像 的 复制 与 图 像 的 灰 度 化 操作 。 











#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#3-11.py 
import cv2 
import numpy as np 
fn="test2.jpg" 
if name__ == '_ main 
print 'loading %s ...' % fn 
img = cv2.imread(fn) 
sp=img.shape 
print sp 
# 获 取 图 像 大 小 





#height 
szi=sp[0] 
#width 
sz2=sp[1] 
# 显 示 图 像 大 小 


print 'width:%d\nheight :%d'%(sz2 


sz1) 
# 创 建 一 个 窗口 并 显示 图 像 














cv2.namedwindow( 'img' ) 
cv2.imshow('img' 





img) 
# 复 制图 像 矩 阵 ， 生 成 与 源 图 像 一 样 的 图 像 ， 并 显示 


myimg2= img.copy(); 
cv2.namedWindow( 'myimg2' ) 
cv2.imshow( 'myimg2', 
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myimg2) 
# 复 制 并 转换 为 灰 度 化 图 像 ， 并 显示 

















myimg1=cv2.cvtColor (img, 


cv2.COLOR_BGR2GRAY ) 
cv2.namedwindow( 'myimg1' ) 
cv2.imshow( 'myimg1' 


myimg1) 
cv2.waitKey() 
cv2.destroyAllWindows() 





上 面 的 代码 生成 了 与 源 图 像 一 样 的 新 图 像 ， 并 生成 了 另 一 个 源 图 像 的 灰 度 化 图 像 ， 
于 效果 如 图 3-18 所 示 。 








TA oles A A i a Nt 人 


RAE RS ee OE IEE ees 如 果 有 必 
值 化 ， 这 样 有 利于 对 图 像 进一步 处 理 ， 使 图 像 数 据 量 减 小 ， 突 显 出 感 兴趣 尼 
如 图 3-19 所 示 为 茶 汽 车 图 像 二 值 化 的 效果 。 


Saya 
Si | 
z 
S> PRI 
ARRE 
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图 3-19 ”图像 二 值 化 


2. 图 像 加 噪 


给 图 像 人 为 加 噪 的 原理 是 ， 将 图 像 若 干 个 像素 点 的 值 设 为 噪声 点 的 值 。 比 如 ， 为 图 
像 加 上 很 多 像素 值 为 [25，20，20] 的 像素 点 ， 编 写 代码 如 下 : 





区 








for k in xrange(0, 


coutn): 
xi = int(np.random.uniform(0, 


img.shape[1]) ) 
xj = int(np.random.uniform(0, 


img.shape[0]) ) 
if img.ndim == 2: 


# 灰 度 图 像 
img[xj, 
xi] = 255 
elif img.ndim == 3: 
HARARE, RIE 
img[xj, 
xi, 
0]= 25 
img[xj, 
xi, 
1]= 20 
img[xj, 
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xi, 





上 面 的 代码 对 img. 如 果 图 像 是 灰 度 化 图 像 ， 则 imgaa 
2， 灰 度 化 图 像 的 像素 值 不 存在 红 、 绿 、 蓝 三 色 之 分 ， 仅 有 灰 度 值 ， 因 此 像素 值 仅 需 
人 外， De 


下 面 的 代码 演示 了 图 像 加 噪 的 算法 ， 为 彩色 图 像 人 为 加 上 100000 个 色彩 随机 的 噪声 





#!/usr/bin/env python. 
#-*- coding: utf-8 - 
#3-12.py 

import cv2 

import numpy as np 

# 需 要 加 噪 的 图 像 文 件 名 


fn="test1.jpg" 





if name__ == '_ main__': 
# 加 载 图 像 
print 'loading %s ...' % fn 


img = cv2.imread(fn) 
# 噪 声 点 数量 


coutn=100000 
for k in xrange(0 


coutn): 
# 获 取 图 像 噪声 点 的 随机 位 置 


xi = int(np.random.uniform(0, 


img.shape[1]) ) 
xj = int(np.random.uniform(0, 


img.shape[0])) 
# 图 像 加 噪声 点 


if img.ndim == 2: 
img[xj, 
xi] = 255 
elif img.ndim == 3: 
img[xj, 
xi, 
0]= 25 
img[xj, 
xi, 
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img[xj, 


xi; 


2]= 20 
cv2.namedwindow( 'img' ) 
cv2.imshow('img' 


img) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 





行 效果 如 图 3-20 所 示 。 





T 20 图 像 加 吕 


We 
随机 的 像素 点 数量 较 大 时 ， 就 在 图 像 上 生成 了 品 
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加 上 噪声 的 图 像 是 为 了 实验 图 像 识 别 的 效果 ， 有 些 机 器 学 习 算 法 对 没有 噪声 的 图 像 
识别 的 效果 很 好 ， 但 如 图 3-20 这 种 噪声 较 多 的 情况 效果 就 很 不 理想 了 ， 因 为 在 实际 工程 应 
R 证 采集 到 的 图 像 清晰 可 靠 ， 所 以 需要 人 为 给 图 像 加 上 噪声 ， 以 方便 后 期 对 算 

3 行 验证 。 




















声音 是 由 物体 的 机 械 振动 形成 的 ， 发 生 声音 的 振动 源 叫 作 * 声 源 "。 振 动 着 的 鼓 皮 、 
党 也 是 声 源 ， 声 音 必须 通过 媒质 才能 传 接 ， 空 气 、 水 、 
波 的 频率 是 每 秒 名 往复 振动 的 次 数 ， 一 来 一 往 为 一 次 ， 
HE. DRAM 《Hz) 。 RS FA 

波 所 传播 的 距离 ， 频 率 越 高 则 波长 越 短 ， 波 长 同 频率 成 











“相位 ”可 简称 为 “< 相 ”。 一 般 地 说 ， 相 位 是 用 来 描述 简 谐振 动 的 ， 在 一 个 周波 之 内 ， 
任何 一 点 的 “ 相 * 都 不 相同 ， 各 对 应 于 一 人 个 确定 的 相位 角 人 ， 而 在 为 一 个 周波 ， 各 种 相位 将 
会 重复 出 现 。 所 以 在 声波 传播 的 路 径 上 ， 每 隔 一 个 波长 的 距离 ， 其 相位 相同 。 


声音 的 音调 是 由 它 的 基 频 决定 的 ， 基 频 越 高 则 音调 也 越 高 。 如 在 音乐 中 中 央 C 的 基 频 
是 261.6Hz， 而 A 调 的 基 频 则 是 440Hz。 通 常 将 声音 分 为 以 下 频带 : 20Hz、25Hz、 
31.5Hz、40Hz、50Hz、63Hz、80Hz、100Hz、125Hz、160Hz、200Hz、250Hz、315Hz、 
400Hz、500Hz、630Hz、800Hz、1kHz、1.25kHz、1.60kHz、2.0kHz、2.5kHz、3.15kHz、 
5.0kHz、6.3kHz、8.0kHz、10kHz、12.5kHz、16kHz、20kHz。 一 般 来 说 ， 人 年 
受 的 正弦 波 的 范围 是 从 20Hz 的 低频 声音 到 20kHz 的 高 频 声 。 


: saw 


音波 波形 属于 正弦 波 ， VA TASCA SEE 振幅 就 
调 。 Te 音 处 理 库 以 及 Numpy 科 学 计算 虐 显 条 : 


显示 声音 波形 数据 的 主要 步骤 如 下 : 
1) 打开 WAV 文 件 ， 使 用 wave 库 的 open 方 法 ， 主 要 参数 为 文件 名 和 存 取 文 件 方式 。 



































# 以 读 方式 打开 


WAV 文 档 


f = wave.open(r"back.wav", 


"rb") 











2) ER DUB AIS m age 用 wave 库 的 getparams 方 法 。 该 方法 返回 的 信息 中 比较 重要 的 是 
前 4 项 ， 依 次 为 通道 数 、 样 ce 样本 频率 、 波 形 数据 长 度 。 


# 读 取 格 式 信息 





#(nchannels, 


sampwidth, 





wawai bbt .cam DEE ATCHHE 
































framerate, 
nframes, 
comptype, 


compname ) 
params = f.getparams() 
nchannels, 


sampwidth, 
framerate, 


nframes = params[:4] 


3) 读 取 波形 数据 ， 波 形 数据 是 WAV 文 件 采 式样 后 生成 的 采 < 样 数 据 ， 使 用 wave 库 的 
readframes 方 法 读 取 ， 该 方法 返回 的 数据 是 字符 类 型 。 








# 读 取 波 形 数据 


str_data = f.readframes(nframes) 


4) 转换 波形 数据 为 Numpy 的 整 型 数组 对 象 。 


# 将 波形 数据 转换 为 数组 








wave_data = np.fromstring(str_data, 


dtype=np.short) 
wave_data.shape = -1, 


2 
wave_data = wave_data.T 











5) 计算 时 间 轴 。 











time = np.arange(0, 


nframes) * (1.0 / framerate) 














的 subplot 方 法 创建 两 个 上 下 形式 的 绘图 区 ， 每 个 绘图 
subplot 方 法 的 参数 共 3 位 整数 ， 从 左边 开始 每 位 依 


区 各 绘制 一 个 声 道 的 数据 。 下 中 X 
TER 会 图 的 索引 ， 比 如 subplot(212) 表 示 绘 图 区 有 2 


J 列 数 、 区 
个 ， 一 共 1 列 ， 当 前 索引 为 第 


# 绘 制 波形 


6) 绘制 波形 ， 绘 制 前 调用 y 
yarn 





ab 
Bye 
域 
绘图 区 








# 创 建 上 边 的 绘 











[x] 
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pl.subplot (211) 
# 绘 制 左 声 道 


pl.plot(time, 


wave_data[0]) 
# 创 建 下 边 的 绘图 区 





pl.subplot (212) 
# 绘 制 右 声 道 


pl.plot(time, 


wave_data[1]. 


c="g") 


上 述 绘制 声音 波形 过 程 的 完整 代码 如 下 : 


#!/usr/bin/env python 
# -*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
#3-13.py 

import wave 

import pylab as pl 
import numpy as np 
print 'working...' 

# 打 开 


WAV 文 档 


f = wave.open(r"back.wav", 


"n rb" 
# 读 取 格 式 信息 


#(nchannels, 


sampwidth, 


framerate, 


nframes, 


comptype, 


compname ) 
params = f.getparams() 
nchannels, 


sampwidth, 
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framerate, 


nframes = params[:4] 
# 读 取 波 形 数据 


str_data = f.readframes(nframes) 
f.close() 
# 将 波形 数据 转换 为 数组 


wave_data = np.fromstring(str_data, 


dtype=np.short) 
wave_data.shape = -1, 


2 
wave_data = wave_data.T 
time = np.arange(0, 


nframes) * (1.0 / framerate) 
# 绘 制 波形 


pl.subplot(211) 
pl.plot(time, 


wave_data[0]) 
pl.subplot(212) 
pl.plot(time, 


wave_data[1], 


c="g" 
pl.xlabel("time (seconds)") 
pl.show() 





程序 读 取 声音 文件 后 ， 绘 制 出 如 图 3-21 所 示 的 波形 。 


这 个 波形 表现 出 ， 声 音信 号 较 连 续 ， 且 着 时 间 的 推 匣 , BETHE, A, BA 
此 ， 这 是 一 段 音乐 或 噪声 等 声音 而 不 是 人 声 ， 因 为 人 说 话 的 声音 有 个 特点 ， 就 是 每 个 字 之 
间 有 少量 停顿 。 语 音 停顿 期 间 ， 声 音 采样 软件 采样 不 到 数据 ， 过 了 这 个 停顿 期 ， 波 形 会 有 
明显 的 变化 ， 如 图 3-22 所 示 波 形 就 是 典型 的 说 话 声音 波形 。 





nee 











声音 音量 的 调节 方式 与 图 像 亮 度 调整 类 似 ， 不 同 的 是 音量 调节 的 是 波形 大 小 。 音 量 


BHR REDO L, KUERE, AET EIA, CHRED, 
声音 音量 降低 。 音 量 不 能 无 限 调节 ， 宕 量 过 大 或 过 小 ， 会 形成 难听 的 噪音 ， 使 声音 失真 。 
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图 3-21 声音 波形 绘制 
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图 3-22 ”说 话 声音 波形 
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oe Nah gal ee 为 保证 声音 质量 ， 需 要 对 音量 调节 范围 设置 上 限 和 
限 ) 。 为 此 ， i wavechange bh $, 计算 调整 后 的 数 
据 ， 其 参数 x 为 每 次 KEM NODDERIE, dwmax 为 上 限 ，dwmin 为 下 限 ， 该 函数 仅 会 将 上 限 
ERS HICH ORE 放大 为 原来 的 1.5 倍 ， 在 此 区 域外 的 数据 则 设置 为 上 限 或 下 限 。 
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def wavechange (X， 


dwmax, 


dwmin): 
if x!=0: 
if abs(x)>dwmax: 
x=x/abs(x) *dwmax 
elif abs(x)<dwmin: 
x=x/abs(x) *dwmin 
else: 


























正弦 函数 图 像 ， 在 以 时 HXP KEX 

下 波动 。 因 此 ， 以 原声 音 数据 的 最 

88%， 下 限 为 原声 音 数据 最 大 值 的 1 
使 用 wave_data. els dhs 大 数据 值 《max 函数 返回 数组 的 最 大 值 〉， 


然后 通过 frompyfunc 函 数 设 置 调节 音量 的 回调 函数 为 刚刚 定义 的 wavechange 函 数 ， 最 后 对 
数据 进行 放大 调节 。 

















# 放 大 音量 


change_dwmax=wave_data.max()/100*88 
change_dwmin=wave_data.max()/100*14 
wave_change = np.frompyfunc(wavechange, 


3 


1) 
new_wave_data =wave_change(wave_data, 


change_dwmax, 


change_dwmin) 





声音 数据 放大 后 ， 需 要 将 新 数据 写 入 新 的 声音 文件 中 。 首 先 以 写 方 式 新 建新 声音 文 








fo = wave.open(r"jg.wav" 


"wb") 


然后 ， 设 置 新 文件 的 数据 参数 为 源 文 件 的 数据 参数 ， 并 写 到 新 声音 文件 中 。 放 大 音 
量 并 没有 改变 格式 信息 ， 因 此 ， 放 大 后 的 声音 与 源 声音 包 息 一 样 。 
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# 写 波形 数据 参数 


print "save new wav files...." 
fo.setnchannels(nchannels) 
fo.setframerate(framerate) 
fo.setsampwidth(sampwidth) 


最 后 调用 writeframes() 方 法 ， 以 放大 后 声音 数据 为 参数 将 数据 写 入 新 


fo.writeframes(new_str_data) 

















下 面 的 代码 演示 了 放大 音量 的 算法 ， 并 绘制 出 了 源 声音 波形 与 放大 后 的 声音 波形 。 


#!/usr/bin/env python 
# -*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
#3-14.py 

import wave 

import pylab as pl 
import numpy as np 

def wavechange(x, 


dwmax, 


dwmin): 
if x!=0: 
if abs(x)>dwmax: 
x=x/abs (x) *dwmax 
elif abs(x)<dwmin: 
x=x/abs(x) *dwmin 
else: 
X=X*1.5 
return x 
# 打 开 


WAV 文 档 


f = wave.open(r"speak.wav", 


"rb") 
fo = wave.open(r"jg.wav" 


"wb" ) 
# 读 取 波形 数据 


#(nchannels, 


sampwidth, 


framerate, 


nframes, 


comptype, 


compname ) 
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params = f.getparams() 
nchannels, 


sampwidth, 


framerate, 


nframes = params[:4] 

print "read wav data...." 
str_data = f.readframes(nframes) 
# 将 波形 数据 转换 为 数组 ， 并 更 改 





print "update wav data...." 
wave_data = np.fromstring(str_data, 


dtype=np. short) 
params = f.getparams() 
nchannels, 


sampwidth, 


framerate, 


nframes 
str_data 
# 放 大 音量 


params[:4] 
f.readframes(nframes) 


change_dwmax=wave_data.max()/100*88 
change_dwmin=wave_data.max()/100*14 
wave_change = np.frompyfunc(wavechange, 


1) 
new_wave_data =wave_change(wave_data 


change_dwmax, 


change_dwmin) 

new_wave_data =new_wave_data.astype(wave_data.dtype) 
new_str_data=new_wave_data.tostring() 

# 写 波形 数据 参数 


print "save new wav files...." 
fo.setnchannels(nchannels) 
fo.setframerate(framerate) 
fo.setsampwidth(sampwidth) 
fo.writeframes(new_str_data) 

# 绘 制 源 声音 波形 


wave_data.shape = -1 


2 
wave_data = wave_data.T 
time = np.arange(0, 


nframes) * (1.0 / framerate) 
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pl.subplot (221) 
pl.plot(time, 


wave_data[0]) 
pl.subplot (222) 
pl.plot(time, 


wave_data[1]. 


c="g" 
pl.xlabel("time (seconds)") 
# 绘 制 放 大 音量 波形 


new_wave_data.shape = -1, 


2 
new_wave_data =new_wave_data.T 
new_time = np.arange(0, 


nframes) * (1.0 / framerate) 
pl.subplot (223) 
pl.plot(new_time, 


new_wave_data[0]) 
pl.subplot (224) 
pl.plot(new_time, 


new_wave_data[1]. 


c="g" 
pl.xlabel("time (seconds)") 
pl.show() 

















如 图 3-23 所 示 波 形 图 中 ， 上 部 为 源 声 音 ， 下 诗 TU 放大 后 的 波形 。 下 部 的 波 
形 数据 范围 为 -20000~20000， 而 上 部 范围 为 -15000~15000， 下 部 ER Ei 大 很 多 。 
下 载 本 书 的 代码 包 运 行 后 ， 可 上 听 到 音量 放大 后 的 声音 效果 。 
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图 3-23 ”声音 音量 放大 波形 














音量 降低 可 通过 将 采样 波形 变 小 来 实现 ， 有 具体 来 说 ， 就 是 把 每 个 采样 数据 按 指 定 比 
例 缩小 ， 同 时 将 缩小 幅度 控制 在 合理 的 范围 内 ， 保 证 音量 降低 后 声音 仍然 清晰 。 


1) 根据 上 下 限 参数 对 波形 数据 进行 调节 ， 定 义 缩小 波形 数据 的 函数 为 wavechange。 





def wavechange (X， 


dwmax, 
dwmin) : 
if x!=0: 
if abs(x)<dwmax and abs(x)>dwmin: 
X=x*0.5 


WwWVai bbt .cam OAA TAE 


else: 
x=x*0.2 
return x 





2) 与 放大 首 量 类 似 ， 以 源 声音 波形 数据 的 最 大 值 为 基准 ， 计 算 上 限 和 下 限 ， 以 
wavechange 为 回调 函数 ， 降 低音 量 。 





# 降 低音 量 


change_dwmax=wave_data.max()/100*1 
change_dwmin=wave_data.max()/100*0.5 
wave_change = np.frompyfunc(wavechange, 


1) 
new_wave_data =wave_change(wave_data, 


change_dwmax, 


change_dwmin) 





3) 生成 新 波形 数据 。 





new_wave_data =new_wave_data.astype(wave_data.dtype) 
new_str_data=new_wave_data.tostring() 





4) 将 数据 写 到 新 声音 文件 。 


# 写 波形 数据 参数 





fo.setnchannels(nchannels) 
fo.setframerate(framerate) 
fo.setsampwidth(sampwidth) 
fo.writeframes(new_str_data) 





下 面 的 代码 演示 了 降低 音量 算法 。 





#!/usr/bin/env python 
# -*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
#3-15.py 

import wave 

import pylab as pl 
import numpy as np 
print 'working...' 

def wavechange(x, 


dwmax, 


dwmin) : 
if x!=0: 
if abs(x)<dwmax and abs(x)>dwmin: 
x=x*0.5 
else: 
x=x*0.2 
return x 
# 打 开 
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WAV 文 档 


f = wave.open(r"back.wav", 


"rb") 
fo = wave.open(r"jg.wav" 


"Wh" ) 
# 读 取 波 形 数据 


#(nchannels, 


sampwidth, 


framerate, 


nframes, 


comptype, 


compname ) 
params = f.getparams() 
nchannels, 


sampwidth, 


framerate, 


nframes = params[:4] 

print "read wav data...." 
str_data = f.readframes(nframes) 
# 将 波形 数据 转换 为 数组 ， 并 更 改 





print "update wav data...." 
wave_data = np.fromstring(str_data, 


dtype=np.short) 
params = f.getparams() 
nchannels, 


sampwidth, 


framerate, 


nframes 
str_data 
# 降 低音 量 


params[ :4] 
f.readframes(nframes) 


change_dwmax=wave_data.max()/100*1 
change_dwmin=wave_data.max()/100*0.5 


wave_change = np.frompyfunc(wavechange, 


3 
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1) 
new_wave_data =wave_change(wave_data 


change_dwmax, 


change_dwmin) 

new_wave_data =new_wave_data.astype(wave_data.dtype) 
new_str_data=new_wave_data.tostring() 

# 写 波形 数据 参数 


print "save new wav files...." 
fo.setnchannels(nchannels) 
fo.setframerate(framerate) 
fo.setsampwidth(sampwidth) 
fo.writeframes(new_str_data) 

# 绘 制 源 声音 波形 


wave_data.shape = -1 


2 
wave_data = wave_data.T 
time = np.arange(0, 


nframes) * (1.0 / framerate) 
pl.subplot (221) 
pl.plot(time, 


wave_data[0]) 
pl.subplot (222) 
pl.plot(time, 


wave_data[1]. 


c="g") 
pl.xlabel("time (seconds)") 
# 绘 制 降低 音量 波形 


new_wave_data.shape = -1, 


2 
new_wave_data =new_wave_data.T 
new_time = np.arange(0, 


nframes) * (1.0 / framerate) 
pl.subplot (223) 
pl.plot(new_time, 


new_wave_data[0] ) 
pl.subplot (224) 
pl.plot(new_time, 


new_wave_data[1]. 


c="g" 
pl.xlabel("time (seconds)") 
pl.show() 
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0 
为 -15000~15000。 





3.1.9 ”图 像 信 息 隐 藏 


1. 图 像 隐藏 原理 


信息 隐 玉 是 不 让 除 预 期 接收 者 之 外 的 任何 人 知晓 信 和 恩 的 传递 事件 或 者 信息 的 内 容 ， 
载体 文件 相对 活 秘 文件 的 大 小 越 大 ,隐藏 后 省 就 越 加 容易 。 因此 ， 数 字 图 像 在 互联 网 和 其 
他 传媒 上 被 广泛 用 于 隐藏 消息 。 
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本 节 讲 述 的 图 像 隐藏 原理 pee 
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们 的 目标 是 : 将 如 图 3- 


: 例 来 1 SE 3-25 所 示 的 文字 隐藏 
EMBRAER E, REE SESE APG EE. 











”图 3-25 ”含有 待 隐藏 文字 的 图 像 
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图 3-26 载体 图 像 
本 实例 隐藏 信息 的 主要 过 程 如 下 : 








1) 读 取 源 图 像 〈 将 写 上 需 隐 藏 文字 的 信息 ) 和 载体 图 像 ， 构 造 图 像 矩阵 。 











img1 = cv2.imread(fn1) 
img2 = cv2.imread(fn2) 
w=img1.shape[1] 
h=img1.shape[0] 


2) 在 源 图 像 中 加 上 水 印 文字 作为 竺 隐藏 文字 。 








# 加 上 需要 隐藏 的 消息 


cv2.putText(img1, 
"hello, 
world!", 
(20, 
300), 


cv2.FONT_HERSHEY_PLAIN, 
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redcolor, 


thickness = 2) 
cv2.putText (img1, 


"code by myhaspl:myhaspl@qq.com" 


(20, 


60), 


cv2.FONT_ 
HERSHEY_PLAIN, 


redcolor, 


thickness = 2) 
cv2.putText(imgi, 


"Installing Python is generally easy. ", 


(1, 


90), 


cv2.FONT_ 
HERSHEY_PLAIN, 


redcolor, 


thickness = 1) 





3) 处 理 隐藏 载 体 图 ， 将 所 有 蓝 色 值 变 成 偶数 ， 以 便 加 入 隐藏 信 ， 


# 处 理 隐藏 载体 图 


# 将 所 有 蓝 色 值 变 成 偶数 





for j in xrange(0 


h): 
for i in xrange(0 


w): 
if (img2[j. 
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息 
Co 





0]%2)==1: 
img2[j. 
i, 
0j=img2[j. 
i 
0]-1 








A) 读 取 源 图 像 ， 将 源 图 像 的 文字 像素 点 在 载体 文件 的 对 应 位 置 的 蓝 色 像 素 值 设 为 奇 














# 读 取 源 图 像 ， 并 将 信息 写 入 目标 载体 图 


for j in xrange(0 


for i in xrange(0 


if (img1[j. 


o], 


img1i[j-. 


img1i[j-. 


2])==redcolor: 
img2[j- 


0]=img2[j. 


0]+1 





D 保存 修改 后 的 目标 载体 图 。 
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cv2.imshow('img2-2', 


img2) 
cv2.imwrite(fn3, 


img2) 





下 面 的 代码 演示 了 隐藏 信息 的 过 程 。 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
#3-16.py 

import cv2 

import numpy as np 

# 含 有 文字 的 图 像 


fni="test1.jpg" 
# 载 体 文件 


fn2="test2.jpg" 
# 包 含 隐藏 信息 的 载体 文件 


fn3="secret.png" 
redcolor=(0, 


255) 
if name == '  main_': 
print u' 正 在 处 理 中 








# 图 像 大 小 


imgi = cv2.imread(fn1) 
img2 = cv2.imread(fn2) 
w=img1.shape[1] 
h=img1.shape[0] 
# 加 上 需要 隐藏 的 消息 


cv2.putText(img1, 


"hello, 


world!", 


(20, 


300), 


cv2.FONT_HERSHEY_PLAIN 
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redcolor， 


thickness = 2) 
cv2.putText(img1 


"code by myhaspl:myhaspl@qq.com" 


cv2.FONT_ 
HERSHEY_PLAIN, 


2.0, 
redcolor, 


thickness = 2) 
cv2.putText(imgi, 


"Installing Python is generally easy. ", 
(1, 
90), 


cv2.FONT_ 
HERSHEY_PLAIN, 


redcolor, 


thickness = 1) 
cv2.namedWindow('img1' ) 
cv2.imshow('imgi' 


img1) 
cv2.namedWindow( 'img2-1' ) 
cv2.imshow('img2-1', 


img2 
# 处 理 隐 藏 载体 图 


# 将 所 有 蓝 色 值 变 成 偶数 





for j in xrange(0 


h): 
for i in xrange(0 
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w): 


if (img2[j. 
i, 
0]%2)==1: 
img2[j. 
i, 
0]=img2[j. 
i, 
0]-1 l 
print '.', 
mirror_w=w/2 
# 读 取 源 图 ， 并 将 信息 写 入 目标 图 ， 将 有 信息 的 像素 点 的 蓝 色 值 设 为 奇数 
for j in xrange(0 
h): 
for i in xrange(0 
w): 
if (img1[j. 
i, 
0]. 
imgi[j. 
i, 
1]; 
imgi[j. 
i, 


2])==redcolor: 
img2[j, 


0]=img2[j, 


0]+1 
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print '.', 


# 保 存 修改 后 的 目标 图 ， 并 显示 


cv2.namedwindow( 'img2-2') 
cv2.imshow('img2-2', 


img2) 
cv2.imwrite(fn3, 


img2) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 











运行 上 段 代 码 将 信息 隐藏 后 ， 肉 眼 观察 载体 图 像 ， 仍 无 法 察觉 与 之 前 相 比 有 任何 变 




















下 面 来 看 看 解密 信息 过 程 。 解 密 信 息 与 隐藏 信息 相反 ， 是 隐藏 信息 的 逆 过 程 ， 主 要 


1) 读 取 载体 文件 及 其 大 小 信息 。 





img = cv2.imread(fn) 
w=img.shape[1] 
h=img.shape[0] 











2) 生成 空白 图 像 矩阵 ， 以 便 绘 制 解密 文字 。 





imginfo =np.zeros((h, 


3), 


np.uint8) 





3) 绘制 解密 的 水 印 文 字 。 如 果 蓝 色 值 为 奇数 ， 则 该 像素 点 为 文字 。 





for j in xrange(0， 


h): 

for i in xrange(0 
w): 

if (img[j. 
i 
0]%2)==1: 
imginfo[j. 

i 
1]=255 
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4) 显示 隐藏 信息 。 





cv2.imshow('info' 


imginfo) 
cv2.imwrite(fn 


imginfo) 





下 面 代码 演示 了 解密 信息 的 过 程 。 





#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
# 解 密 文件 


#3-17.py 

import cv2 

import numpy as np 

fn="secret.png" 

if name__ == ' main _': 
print 'loading ...' 
print u' 正 在 处 理 中 








img = cv2.imread(fn) 
w=img.shape[1] 
h=img.shape[0] 
imginfo =np.zeros((h, 





W, 
3), 
np.uints) 
for j in xrange(0 
h): 
for i in xrange(0 
w) 
if (img[j. 
i 
0]%2)==1: 
# 如 果 蓝 色 值 为 奇数 ， 则 该 像素 点 为 文字 
imginfo[j. 
i 
1]=255 
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cv2.imshow('info' 


imginfo) 
cv2.imwrite(fn 


imginfo) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 








行 解密 代码 ， 从 载体 文件 中 提取 信息 ， 效 果 如 图 3-27 所 示 。 
3.1.10 ”声音 信息 隐藏 


1. 声 音信 息 隐 藏 原理 
声音 文件 是 一 个 不 错 的 信息 隐藏 载体 ， 
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Ky (ABR RICA OO, MENAR 位 数据 爹 部 利用 上 ， 人 每 秘 的 声音 可 以 存储 44100 字 
节 的 数据 ， 不 过 这 样 达 不 到 信息 隐藏 的 效果 ， 只 能 利用 其 中 一 部 分 采样 数据 来 存储 信息 ， 
占有 的 采样 数据 越 少 ， A A 

比如 ， 如 图 3-28 所 示 的 波形 是 一 段 音 乐 的 声音 波形 ， 假 设 某 个 采样 点 的 数据 实际 是 
信息 中 一 个 字 节 大 小 的 数据 ， 那 么 将 这 些 字 节 解密 后 ， 能 还 原 成 一 段 信息 。 这 种 载体 的 隐 
藏 信息 的 效果 比 图 像 好 ， 一 般 很 难 被 人 发 现 。 

这 里 采用 的 隐藏 策略 是 : 产生 一 段 正 弦 波 的 噪声 ， 然 后 ， 在 这 段 噪声 中 隐藏 一 段 文 
本 文件 的 内 容 。 Fie DS RE NS, ATEN 8 标 是 : 将 本 章 前 面 讲述 的 Python 代 
PASE ISL py ieee 段 噪声 中 ， 解 密 者 如 果 不 知 道 HELE IOMUI, AIEE SI 


还 原 这 个 Python 代码 文件 。 
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code by pea kde allel ds ba com 
nstalling Py mn IS ge ? 


hello,world! 





图 3-27 解密 后 的 文字 
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HoO+ BET 





图 3-28 音乐 的 声音 波形 
2. 声 音信 息 隐 藏 实例 
隐藏 信息 的 具体 过 程 如 下 : 
1) 读 取 需要 隐藏 的 文本 文件 ， 提 取 其 中 的 文字 信息 。 


# 打开 文档 








fo = wave.open(r"pltest.wav", 


"wb IT ) 
file object = open('3-1.py') 
try: 
all_the_text = file_object.read( ) 
finally: 
file_object.close( ) 
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人 





wdata=map(ord, 


all_the_text) 
wdata=np.array(wdata) 





D REAT CN NBO Ba. RECETA IER, 所 以 将 幅度 设置 为 适 
合 的 区 域 ， 为 使 载体 噪声 更 接近 于 自然 的 噪声 ， 将 振幅 范围 设置 为 -25600~25600。 


# 设置 波形 参数 





# 采 样 率 


framerate = 44100 
# 声 道 数 


nchannels=2 
# 每 位 宽度 





sampwidth=2 
# 长 度 


nframes =framerate*4 
# 振 幅 


base_amplitude = 200 
max_amplitude=128*base_amplitude 








4) 计算 每 个 字符 的 间隔 ， 和 需要 隐藏 的 若干 个 字符 以 等 间隔 的 形式 分 散在 噪声 数据 
中 ， 即 ;在 噪声 波 落 数 据 中 ， 每 陋 指 定 的 间隔 存放 二 个 字符 。 








# 每 个 字符 的 间隔 





interval=(nframes-10)/lwdata 








5) 生成 空 波形 数据 ， 以 便 写 入 噪声 数据 和 字符 信息 。 





# 每 周期 样本 数 





wave_data=np.zeros((nframes), 


dtype=np.short) 








6) ERRET AE, JRR HA FISAR BET, 是 关键 ， 也 是 算法 
E A RE REHOALIE De LOS BESS, HOM AT PEIN BAL TR BAS it fR Tel Bia 
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处 ， 则 表示 此 处 为 加 密 字 符 区 〈 每 个 字 只 能 存放 一 个 字符 ) ， 写 入 的 数据 为 经 过 加 密 
的 字符 ， 在 间隔 之 前 的 时 间 区 或 则 为 随机 噪声 区 。 

算法 判断 是 否 到 了 指定 的 间隔 处 ， 
区 ， 则 随机 生成 噪声 ， 如 果 


的 知 密 算法 《实际 应 sal GRA a 
SE HG RES. EAE N 


T ne me 





ig o o a 
M 
E 的 ASCII 码 乘 以 
KIPER. 














ae 





算法 代码 如 下 : 





# 写 噪声 数据 和 隐藏 文字 的 字符 


myrand=np. random. rand(nframes) 
for curpos in xrange(0， 


nframes): 
if curpos % interval==0 and count<lwdata: 
# 将 隐藏 文字 的 字符 通过 一 定 的 变化 写 入 噪声 数据 中 





possamp=wdata[count ]*base_amplitude-64*base_amplitude 
count+=1 

elif curpos%60==0: 

# 生 成 随机 噪声 数据 





possamp=int (myrand[curpos]*max_amplitude-max_amplitude/2) 
else: 

possamp=0 
wave_data[curpos]=possamp 





7) 写 波 形 数据 。 


# 写 波形 数据 参数 





print "save new wav files...." 
str_data=wave_data.tostring() 
fo.setnchannels(nchannels) 
fo.setframerate(framerate) 
fo.setsampwidth(sampwidth) 
fo.setnframes(nframes) 
fo.writeframes(str_data) 











下 面 来 看 看 解码 信息 过 程 ， 解码 信息 是 隐藏 信息 的 逆 算 法 ， EBD RU F: 
1) 读 取 噪 声 载 体 文件 以 及 相关 格式 信息 。 








new_wdata=[] 
print u' 正 在 从 声音 解码 文件 
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fi = wave.open(r"pltest.wav" 


"rb") 
fi_params=fi.getparams() 
fi_nframes = fi_params[3] 
fi_str_data=fi.readframes(fi_nframes) 
fi_wave_data= np.fromstring(fi_str_data, 


dtype=np.short) 





2) 找到 字符 区 ， 将 其 中 的 字符 解密 并 还 原 成 字符 串 。 





for curpos in xrange(0， 


nframes): 
if curpos % interval==0 and count<lwdata: 
possamp=(fi_wave_data[curpos]+64*base_amplitude)/base_amplitude 
new_wdata.append(possamp) 
count+=1 





3) 整理 还 原 字 符 串 ， 将 它们 写 入 文件 。 





my_the_text="" .join(map(chr， 


new_wdata) ) 
fmy_the_text="".join(map(chr, 


new_wdata) ) 
file object = open('mytext.txt' 


'w') 
file_object.write(my_the_text) 
file_object.close( ) 





下 面 程序 读 取 名 为 3-1.py 的 Python 源 程序 文件 ， 将 该 文本 隐藏 在 声音 文件 中 ， 然 后 打 
开 载 体 声音 文件 ， 将 文本 还 原 为 Bython 程 序 文件 。 





#!/usr/bin/env python 
# -*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
# 将 文件 隐藏 在 声音 之 中 





#3-18.py 

import wave 

import pylab as pl 
import numpy as np 
# 编 码 


print u' 正 在 将 文件 编码 进 声音 


print "generate wav data...." 
# 打 开 文 档 
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fo = wave.open(r"pltest.wav" 


"wb" ) 
file_object = open('3-1.py') 
try: 
all_the_text = file_object.read( ) 
finally: 
file_object.close( ) 
wdata=map(ord, 


all_the_text) 
wdata=np.array(wdata) 
lwdata=len(wdata) 

# 设 置 波形 参数 


# 采 样 率 


framerate = 44100 
# 声 道 数 


nchannels=2 
# 每 位 宽度 





sampwidth=2 
# 长 度 


nframes =framerate*4 
# 振 幅 


base_amplitude = 200 
max_amplitude=128*base_amplitude 
# 每 个 字符 的 间隔 





interval=(nframes-10)/lwdata 
# 每 周期 样本 数 





wave_data=np.zeros( (nframes), 


dtype=np. short) 
count=0 
# 写 噪声 数据 和 隐藏 文字 的 字符 


myrand=np,random.rand(nframes ) 
for curpos in xrange(0, 


nframes): 
if curpos % interval==0 and count<lwdata: 
possamp=wdata[count]*base_amplitude-64*base_amplitude 
count+=1 
elif curpos%60==0: 
possamp=int (myrand[curpos]*max_amplitude-max_amplitude/2) 
else: 
possamp=0 
wave_data[curpos]=possamp 
# 写 波形 数据 参数 
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print "save new wav files...." 
str_data=wave_data.tostring() 
fo.setnchannels(nchannels) 
fo.setframerate(framerate) 
fo.setsampwidth(sampwidth) 
fo.setnframes(nframes) 
fo.writeframes(str_data) 
fo.close() 


# 绘 制 波形 
wave_data.shape = -1 
2 


wave_data = wave_data.T 
time = np.arange(0, 


nframes/2) 
pl.subplot (211) 
pl.plot(time 


wave_data[0]. 


c="r 
pl.subplot (212) 
pl.plot(time, 


wave_data[1]. 


c="g" 
pl.xlabel("time (seconds)") 
# 解 码 


new_wdata=[] 
print u' 正 在 从 声音 解码 文件 


fi = wave.open(r"pltest.wav", 


"rb") 
fi_params=fi.getparams() 
fi_nframes = fi_params[3] 
fi_str_data=fi.readframes(fi_nframes) 
fi_wave_data= np.fromstring(fi_str_data, 


dtype=np.short) 
count=0 
for curpos in xrange(0, 


nframes): 
if curpos % interval==0 and count<lwdata: 
possamp=(fi_wave_data[curpos]+64*base_amplitude)/base_amplitude 
new_wdata.append(possamp) 
count+=1 
my_the_text="".join(map(chr, 


new_wdata) ) 
file_object = open('mytext.txt' 


'w') 
file_object.write(my_the_text) 
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file_object.close( ) 
pl.show() 





运行 这 段 代码 ， 程 序 输出 了 编码 和 解码 过 程 。 


E 在 将 文件 编码 进 声 音 











=] 


generate wav data.... 
save new wav files... .正在 从 声音 解码 文件 

















BAS Rite S .的 过 程 。 程序 运行 后 ， 人 
ae 声 中 。 然 后 ， 从 噪声 中 解码 信息 ， 将 文本 内 容 输 出 到 mytext.txt 中 ， 用 记 
Eiio 如 图 -29 所 示 。 可 以 看 到 解码 后 的 程序 和 源 程序 一 样 ， 包 括 空 格 、 符 号 


E 
文件 (F) 编辑 (E) 格式 (O) 查看 (V) 帮助 (H) 


! /usr/bin/envy python 
#4-1. py 
import cv2 


fn="testl. jpg” 


name__ == 3 
print "http: T SEA AN net /myhaspl’ 


print ’ myhaspl@qq. com 

print 

print * loading %s ...’ % fn 
img = cv2. imread(fn) 

cv2. imshow( preview , img) 
cv2. waitKey() 

cy2. destroyAl]Windows () 





图 3-29 ”解码 后 文件 


如 图 3- -30 所 示 是 程序 运行 后 生成 的 声音 波形 图 像 ， ee e 
本 信息 。 下 载 本 书 源码 包 后 ， 可 以 播放 这 上 段 声 音 ( 运 行 3-18.py 后 ， 会 产生 声音 文件 
a + SURGIR HIG Oe AETA DIRE, 
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-5000 
-10 000 





k Ww 10000 20000 30000 40000 50000 60000 70000 80000 90000 


图 3-30 ”隐藏 了 文本 信息 的 波形 








3. 信 息 隐 藏 与 解码 总 结 

综 上 所 述 ， 隐 藏 信息 的 算法 过 程 为 : 

1) 读 取 程序 文本 文件 ， 将 字符 转换 为 ASCII 码 。 

2) 确定 声音 文件 的 相关 参数 ， 生 成 2 秒 声音 ， 其 中 采样 数据 用 随机 数 代 人 蔡 ， 生 成 随 
机 数 的 取 值 范围 为 -15000~15000， 在 茶 些 采样 点 上 用 来 自 隐 藏 信息 的 字符 字 节 代 蔡 ， 代 符 
的 方式 是 将 字 节 对 应 的 ASCI 码 乘 上 茶 个 基数 加 一 个 调整 参数 ， 代 蔡 的 过 程 是 线性 的 。 

3) 将 生成 的 声音 数据 写 入 载体 文件 中 。 

解码 信息 的 算法 过 程 为 : 

1) 读 取 载体 声音 文件 及 其 相关 参数 。 

2) 按照 隐藏 信息 时 的 规律 ， 在 正确 的 位 置 读 取 字 符 ， 然 后 将 读 取 的 字符 合成 信息 。 

3) 将 信息 写 入 恢复 文件 中 。 
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3.2 有 R 语 言 基础 





R 是 用 于 统计 分 析 、 erie 到 言 和 操作 环境 ， ee 





于 GNU 系 统 的 一 个 自由 、 源 代 码 开 放 的 软件 。 其 GUI 界面 主要 包括 菜 
台 ， 在 Windows 平 台 下 的 界面 如 图 3-31 所 示 。 
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R version 3,0,0 (2013-04-03) -- "Masked Marvel" 
Copyright (C) 2013 The R Foundation for Statistical Computing 
Platform: 1386-w64-mingw32/i386 (32-bit) 


了 是 自由 软件 ， 不 带 任何 担保 ， 
ESHA PURE RA. 
FA License()'S'licence() ' 来 着 散布 的 详细 条 件 。 


R 是 个 合作 计划 ， 有 许多 人 为 之 做 出 了 贡献 
用 'contributors() ' 来 看 合作 者 的 详细 情况 
用 'citation () 会 告 诉 你 如 何在 出 版 物 中 正确 地 引用 R 或 R 程 序 包 ， 


Aden () ' 来 看 一 些 示范 程序 ， 用 'help () ,来 阅读 在 线 帮助 文件 ， 或 
用 'help, start ()' 通过 #TML 浏 览 器 来 看 帮助 文件 ， 


用 'ql), 退 出， 
>| 





13-31 R 的 GUI 界面 
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3.2.1 基本 操作 


1. 提 示 符 
R 以 “>” 为 shell 提 示 符 ，Windows、Linux、MAC 均 一 致 。 
2. 获 得 帮助 的 方式 
在 R 中 使 用 help 函 数 获 取 某 个 命令 或 函数 的 帮助 。 下 面 是 获取 求 平 均值 函数 的 帮助 函 





> help(mean)starting httpd help server ... done> 





输入 上 述 命令 后 ， 显 示 如 下 HTML 形式 的 帮助 文档 : 


Arithmetic Mean 


$$ Default 53 method: 
mean(x, trim = 0, na.rm = FALSE, ...) 





如 果 想 进一步 获得 这 个 函数 的 调用 示例 ， 可 以 通过 example 命 令 。 





> example(mean)mean> x <- c(0:10 


50)mean> xm <- mean(x)mean> c(xm, 


mean(x, 


trim = 0.10))[1] 8.75 5.50 
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3. 文 件 载 入 并 执行 代码 
人 


D 
aN 





x<-c(22, 
23, 
44, 


66); 
y<-mean(x);y 


然后 加 载 执 行 ， 查 看 输出 结 








> source("f:/pro/r/test.r") 
> y 
[1] 38.75 


> X 
[1] 22 23 44 66 





最 后 将 执行 结果 写 入 文件 。 





> sink("f:/pro/r/test.lis") 
> x 
> y 





打开 test.lis， 可 看 到 以 下 内 容 : 





[1] 2 44 66 
[1] 3 





如 果 采 用 不 带 参 数 的 sink， 将 恢复 结果 。 示 例如 下 : 





> sink() 
> 


X 
[1] 22 23 44 66 





4 .代码 续 行 
AE AT EAR FE HEAT ERT 





x<-c(11, 


22, 


33+ 
+ 22+ 

+ 3333) 

> x[1] 11 22 3388 





另外 ， 需 要 提 一 下 ，R 语 言 中 的 注释 可 以 被 放 在 任何 地 方 ， 只 要 是 以 井 号 ( 开 
台 ， 到 行 末 结束 就 可 以 。 
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5. 物 件 (对象 集 ) 


在 R 中 创建 的 单元 为 物件 (对 象 集 ) ， 这 些 物 件 可 以 是 变量 、 数 字数 组 、 字 符 串 、 函 
数 ， 以 及 从 这 些 物 件 中 产生 的 更 多 结构 。 


objects() 可 用 来 显示 存储 在 R 中 的 对 象 集 名 字 。 





> objects() 
1] His "ym" 








以 上 代码 显示 有 R 目 前 运行 环境 中 有 x 和 xm 两 个 变量 ， 可 以 使 用 rm 移 除 某 个 对 象 。 





> rm(xm) 
> objects() 
[1] myn 





退出 R 程 序 时 ， 可 以 以 .RData 的 方式 保存 这 些 对 象 集 ， 如 图 3-32 所 示 。 





(EM): ” 国 我 的 文档 ~ O@@ PE- 
名 称 修改 日 期 


)) Administrator 的 设备 中 的 文档 2013-04-16 12:( 
di Arduino 2013-03-15 15:: 


d Dynamic Info Screen 2013-01-28 15x 


出 MATLAB 2013-03-05 7:5. 
(a) My Music 2012-12-24 10¥ _ 
i 
HBO: .RDats ss 


全 





图 3-32 ”保存 对 象 集 对 话 框 
当下 次 再 启动 R 时 ， 加 载 .RData 文 件 后 ， 这 个 对 象 集会 被 还 原 。 





R version 3.0.0 (2013-04-03) -- "Masked Marvel" 
Copyright (C) 2013 The R Foundation for Statistical Computing 
Platform: 1386-w64-mingw32/i386 (32-bit) 





原来 保存 的 工作 空间 已 还 原 。 





> X 
[1] 11 22 3388 
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3.2.2 向量 


1. 数 据 型 向 量 及 其 运算 


最 简单 的 数据 结构 是 数字 型 向 量 ， 它 是 一 个 有 序 的 数字 集合 (这 里 的 序 不 是 指 按 数 
Spee 1 的 先后 顺序 都 确定 ) ， 关 于 这 个 序 ， 数 学 上 有 一 个 很 好 的 解 
x, A 


偏 序 关 系 又 称 半 序 关 系 。 设 A 是 一 个 非 空 集 ，P 是 A 上 的 一 个 关系 ，P 适 合 下 列 条 件 : 
1) 对 任意 的 aEA，(a，alEP。 
2) 若 (a，b)EP 且 (b，aEP， 则 a=b。 


) 若 (a，b)eP，(b，Q)EP， 则 (a，c)eP， 则 称 P 是 A 上 的 一 个 偏 序 关系 。 带 偏 序 
KROME KU 或 半 序 集 。 


比如 说 (1，2)〉 和 “2，1)〉， 它 们 两 个 就 不 是 同 个 向 量 ， 因 为 这 两 个 集合 的 序 不 一 


| 























向 量 的 使 用 方法 很 简单 ， 可 使 用 "c" 后跟 括号 将 向 量 包 围 起 来 ， 即 cO 函 数 。 如 : 





> y<-c(12, 
33, 
12, 


22) 


> y 
[1] 12 33 12 22 











"<-" 可 以 相当 于 “=”， 就 是 将 这 个 向 量 组 作为 y 这 个 对 象 的 值 ， 也 可 以 使 用 assignO) 函 





> assign("x", 
c(11, 
22, 
15)) 
> x 
[1] 11 22 15 
“->” 的 作用 与 "<-" 类 似 。 


> c(12, 








33， 


12, 


22)->z 
>z 
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[1] 12 33 12 22 


对 问 量 操作 ， 一 般 是 对 向 量 的 每 个 元 素 进行 操作 ， 比 如 : 








>z 
[1] 12 33 12 22 

> Z/2 

[1] 6.0 16.5 6.0 11.0 


向量 也 可 以 成 为 c0) 中 的 参数 ， 回 量 中 的 元 素 ， 将 合并 成 为 c0 函 数 中 的 元 素 : 








> c(33, 
12, 


66) ->x1 
> yl=c(x1, 


111, 


1 
[1] 33 12 66 111 33 12 66 














再 来 看 看 数字 型 向 量 运算 。 向 量 之 间 的 运算 是 每 个 元 素 分 别 进行 的 ， 比 如 : 








x 
[1] 11 22 3388 
> 2*x->y 


[1] 22 44 6776 


[1] 77 154 23716 


元 素 个 数 不 一 致 的 癌 量 ， 元 素 个 数 较 少 的 向 量 将 循环 扩充 和 元 素 个 数 最 多 的 向 量 一 
这 意味 着 元 素数 量 最 多 的 向 量 的 元 素 个 数 必须 是 元 素数 量 小 的 向 量 的 元 素 个 数 的 整数 


QE 
Ho 























>z 
[1] 77 154 23716 
> bb<-c(12, 


21, 


32, 


60, 


132, 


56) 
> Z/3+bb 
[1] 37.66667 72.33333 7937. 33333 85.66667 183.33333 7961.33333 





对 向 量 元 素 的 操作 ， 可 以 使 用 普通 的 +、-、*、/ 人 、^ 等 操作 符 ， 也 可 以 使 用 更 多 的 函 
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数 ， 比 如 : log、sin、tan、max、mean、sum 等 ， 这 些 函 数 有 些 是 对 每 个 元 素 分 别 计算 ， 
有 些 是 对 所 有 元 素 一 起 计算 。 





>x 
[1] 11 22 3388 
> COS(X)#coSs 三 角 函 数 














[1] 0.004425698 -0.999960826 0.206187272 
> sin(Xx)#Sin 三 角 函 数 














[1] -0.999990207 -0.008851309 0.978512549 
> sum(X)# 求 和 


[1] 3421 
> mean(X )# 求 平均 值 


[1] 1140.333 





可 以 使 用 sort、length、sqrt 对 向 量 进行 排序 ， 求 长 度 ， 求 平方 根 。 





> c(4, 


9 ) ->x 
> Sdrt(X )# 平 方 根 





[1] 2.000000 2.828427 3.000000 
> length(x)# 长 度 


[1] 3 
> sort (Xx)->y# 排 序 


> y 
[1] 4 8 9 





2. 复 数 向 量 与 规则 向 量 


复数 向 量 的 元 素 都 是 复数 。 复 数 的 表示 方法 是 : 实 部 + 虚 部 i。 下 面 的 代码 演示 了 复 
数 向 量 的 使 用 方法 。 




















[1] 4 8 9 
> b+y->w# 复 数 运 算 
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>w 
[1] 6+11 11-9i 13+0i 





我 们 可 以 使 用 1:m-1 和 1:(m-1) 产 生 规则 的 序列 。 


>c(1:(22)) 
[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 





[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 








冒号 的 优先 权 很 高 ， 看 下 面 这 个 示例 ， 它 产生 范围 在 3-30 之 内 的 公差 为 3 的 等 差 数 


Yo 





> c(3*(1:10)) 

[1] 3 6 9 12 15 18 21 24 27 30 
> c(3*1:10) 

[1] 3 6 9 12 15 18 21 24 27 30 











sedq 函 数 是 生成 序列 的 最 好 工具 。 可 以 使 用 它 产 生 符合 某 种 规则 的 序列 ，seq 函 数 有 5 
个 参数 ， 前 4 个 参数 分 别 是 起 始 值 〈 参 数 名 称 : from) 、 终 止 值 〈 参 数 名 称 : to) 、 步 长 
《参数 名 称 : by) 、 长 度 即 元 素 个 数 〈 参 数 名 称 : length.out) 。 





> seq(1, 

5) 

[1] 12345 
> seq(1, 


5 


2) 
[1] 135 





可 以 直接 指定 参数 名 称 ， 传 入 参数 。 





> seq(from=1, 

to=15, 

by=2) 

[1] 1 3 5 7 9 41 13 15 
> 

> seq(from=1, 


to=15, 


by=3) 
[1] 1 4 7 10 13 
> seq(from=1, 


to=15, 


length. out=3) 
[1] 1 845 





第 五 个 参数 是 along.with， 使 用 along.with 参 数 中 序列 的 长 度 作 为 要 产生 序列 的 长 度 。 





WwWvai bht . com DRXATHHE 














> seq(from=2, 


along.with=c(1:5)) 
[1] 23456 
> seq(from=2, 


by=2, 
along.with=c(1 


2 


8)) 

[1] 2468 
> seq(from=2, 
by=2, 


along.with=c(1 


2; 


8)) 
[1] 2468 





© 注意 ”along.with 参 数 中 的 序列 仅 取 其 长 度 ， 和 序列 的 内 容 无 关 。 


rep 函 数 对 序列 中 的 元 素 进 行 重复 后 拼接 ， 拼 接 的 方式 是 : 使 用 times 参 数 将 所 有 元 素 
作为 整体 拼接 ， 使 用 each 参 数 将 元 素 分 别 进行 拼接 。 





> rep(x, 


2) 
[1] 12 32 98 12 32 98 
> rep(x, 


3) 
[1] 12 32 98 12 32 98 12 32 98 
> rep(x, 


times=2) 
[1] 12 32 98 12 32 98 
> > rep(x, 


each=2) 
[1] 12 12 32 32 98 98 





3.32 48 j Æ 
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w 
ITRE Colin) FALSE (HJ SRF) 、NA《〈 即 无 效 











了 解 了 数字 型 问 量 ， 再 来 看 看 逻辑 型 癌 量 。 该 问 量 的 元 素 由 





辑 型 值 组 成 ， 罗 辑 型 
) 等 ， 可 使 用 >、>=、 





等 逻辑 操作 符 ，and 操 作用 &，or 操 作用 |， 风 辑 非 使 用 “1 








c(12, 


33, 


51) ->X 

>x 

[1] 12 33 51 

> X>20->y 

> 

[1] FALSE TRUE TRUE 

> Xx>=12->y#X>12 作 为 产生 逻辑 向 量 的 依据 





> y 
[1] TRUE TRUE TRUE 
> x>=12&x<30->y 


y 
[1] TRUE FALSE FALSE 
> x>=12|x<30->y 
> 
[1] TRUE TRUE TRUE 
>> 1 (x>=12&x<30) ->y 
> y 
[1] FALSE TRUE TRUE 





无 效 值 或 缺失 值 NA、NaN 主 要 用 于 应 付 茶 操作 没完 成 ， 结 果 未 知 的 情况 。 示 例如 








> c(1:4, 
NA, 
2:3)->x 


x 

[1] 1 2 3 4NA 2 3 

> is.na(x) 

[1] FALSE FALSE FALSE FALSE TRUE FALSE FALSE 





下 面 是 数字 计算 对 NAN 的 处 理 : 





> 0/0 

[1] Nan 

> 0/0->y 
> is.na(y) 
[1] TRUE 
> y 

[1] NaN 





4. 字 符 串 向 量 





字符 串 用 单 引 号 或 双 引 号 包围 ， 示 例如 下 : 





> c("qq", 


"bb")->z 
>Z 


[1] "qq" "bp" 
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可 在 字符 串 中 使 用 转 义 符 \: 


\n ”新 行 








tt 


\r E 














\t tab 
\b 退 格 


Na 鸣叫 














在 字符 串 向 量 的 运算 中 ，paste() 函 数 接受 任意 数量 的 参数 ， 可 将 它们 依次 连接 到 字符 
串 向 量 的 元 素 中 ，sep 指 定 连 接 时 相隔 的 字符 ， 默 认为 单个 空格 。 


> paste(1:12) 
[1] nage mon gu wan ugu me" wz ugu ngu magn iin fea Eis aot 
> paste("A", 





se = oun 
[1] "AT" "A2" "A3" "A4" "A5" "A6" 


> paste("A", 


1:6) 
[1] TA 4" A oY "A g" A 4" "A 5" 1A 6" 
> paste("A", 


se = nn 
" mW " n W " "n W n mW " n 
[1] "A1 A2 A3 A4 A5 A6 
> paste(c("A", 


"B"), 


1:10, 


sep="") 
[1] "Ay" "Bo" "Ag" "Ba" nagu "Be" nggu "Bg" "AQ" "B10" 
> paste(" 今 天 是 


Sun Apr 21 14:18:38 2013" 
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5. 索 引 向 量 


在 逻辑 值 型 索引 中 ， 索 引 疝 量 的 元 素 为 逻辑 值 型 ， 逻 辑 值 为 TRUE 的 向 量 将 被 放 在 输 
出 结果 中 。 示 例如 下 : 








> X 

[1] 11 22 3388 

> x>22->jg 

> 

[1] FALSE FALSE TRUE 
> x[jg]->y 

> 


y 
[1] 3388 
> x[x<100] ->y 
> 


[1] 11 22 
> 





在 正 整 数 型 索引 中 ， 索 引 向 量 是 正 整 数 类 型 ， 用 于 指示 要 哪些 位 置 的 元 素 要 输出 到 
结果 中 。 示 例如 下 : 





> x[c(1, 


2 


3 


2 


1) ]# 以 向 量 作为 索引 


[1] 11 22 3388 22 11 


[1] 11 22 3388 


[1] 11 22 
> x[2:3] 
[1] 22 3388 





对 于 负数 索引 ， 会 将 除开 索引 以 外 的 所 有 元 素 输出 到 结果 中 。 示 例如 下 : 





> c(12, 


[1] 12 22 88 

> xX 

[1] 12 22 88 

> X[-(1:2)]->Y 
> Y 


[1] 88 
> X[-(1)]->Y 
> Y 


[1] 22 88 





在 字符 串 索 引 中 ， 是 以 字符 串 来 标注 元 素 的 位 置 的 。 示 例如 下 : 
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> c(23, 


26, 


27)->age 
> c(" 张 三 





")->names(age) 
> age[c(" 张 三 


") ]# 以 字符 串 作 为 索引 





KS 


23 
> age[c(" 张 三 


" 
g 


"ER 





")]->mystudent 
> mystudent 张 三 


EH 





23 27 








、 带 索 引 方 式 的 向 量 对 象 可 以 直接 作为 被 赋值 的 对 象 ， 所 有 在 索引 内 的 疝 量 元 素 都 会 
被 赋值 。 示 例如 下 : 











> age[c(" 张 三 
"EE 
")] 张 三 
ET 
26 28 


> age[c(" 张 三 
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"ER 





")]<-age[o( "k= 


" 
了 


"Ei 





")]+1 
> age[c(" 张 三 


" 
, 


"ER 





")] 张 = 


ET, 


27 29 
> age[c(" 张 三 


"E 





")]<-32 
> age[c(" 张 三 


" 
g 


“Æ 





")] 张 = 


Eh. 


32 32 





再 举 个 例子 : 给 所 有 小 于 100 的 元 素 均 加 上 20， 代 码 如 下 : 





>x 
[1] 11 22 3388 
> length(x) 

1] 3 
> x[x<100]<-x[x<100]+20 
> x 


[1] 31 42 3388 
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3.2.3 “对象 集 属性 





1. 回 有 属性 
对 象 集 的 固有 属性 有 mode 和 length 两 种 ， 相 关 示 例如 下 : 
al 11 22 3388 
> mode(x) 


[1] "numeric" 





其 中 mode 可 理解 为 对 象 集 的 类 型 ， 主 要 有 numeric1、complex、logical、character 和 
raw 等 类 型 。mode 的 用 法 如 下 : 





> length(x) 
[1] 3 

> c(1.0-5i, 
20+511 ) ->a 


> mode(a) 
[1] "complex" 





m R E E 比如 ， 使 用 as.character 转 化 为 字符 型 等 。 示 
VON Pp: 





[1] 5 6 7 8 9 10 11 12 
> as.character(h )# 转 化 为 字符 


[1] mp" "ge" ir dy wen "go "10" a Se bi "Wagon 
> c(1.0-5i, 


20+51i)->a 

> mode(a) 

[1] "complex" 

> as.character(a)->c_a 
> ca 

[1] "41-5i" "20+54i" 





2. 设 置 对 象 属 性 


可 使 用 attr 方 法 进行 属性 的 自 定 义 。 有 具体 方法 为 : 使 用 attr(object，name) 格 式 设置 对 
象 属性 。 示 例如 下 : 


> h 
[1] 5 6 7 8 9 10 1112 
> attr(h, 











"name")<- "test" 
attr(h, 


"dim")<-c(2, 


4) 
>h 
[; 
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] 
attr(, 


"name" ) 
[1] "test" 








3.2.4 因子 和 有 序 因子 








因子 用 来 存储 类 别 变量 和 有 序 变量 ， 可 用 来 分 组 或 分 类 ， 因 子 表 示 分 类 变量 ， 有 序 
因子 表示 有 序 变 量 。 


在 R 语 言 中 使 用 factor0 函 数 生成 因子 对 象 ， 语 法 是 factor(data，levels，labels，...)， 其 
中 data 是 数据 ，levels 是 因 于 水 平 向 量 ，labels 是 因子 的 标签 向 量 。 











> my_num<-c(11, 


22, 


34, 


71, 


14, 


68, 


21) 
> factor (my_num)->nums# 生 成 





my_num 分 组 向 量 





生成 因子 对 象 后 ， 输 入 对 象 名 称 ， 可 显示 简单 的 分 类 情况 。 








> nums 

[1] 11 22 34 71 14 68 21 
Levels: 11 14 21 22 34 68 71 
> 








Levels 函 数 用 于 生成 因子 向 量 中 的 水 平 〈 去 除 重复 元 素 后 的 元 素 集 ) 。 示 例如 下 : 
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| 


> my_num<-c(11, 
22， 
34, 
71, 
14, 
68, 
21, 
22, 
11, 


34) 
> factor (my_num)->nums 
> nums 
[1] 11 22 34 71 14 68 21 22 11 34 
Levels: 11 14 21 22 34 68 71 
> levels(nums) 
[1] ag tt "qq" moa" "go" "aq" "68" ny4” 








还 可 使 用 ordered 函 数 生 成 有 序 因子 。 示 例如 下 : 





> ordered(nums) 

[1] 11 22 34 71 14 68 21 22 11 34 
Levels: 11 < 14 < 21 < 22 < 34 < 68 < 71 
> age <- c(25, 


12, 


15, 


12, 


25) 
> ordered(age, 


levels = c(25, 


12, 


15 
[1] 25 12 15 12 25 
Levels: 25 < 12 < 15 





cutO 函 数 将 数据 转换 成 因子 或 有 序 因子 ， 并 进行 分 组 。 下 面 对 一 组 学 生成 绩 进 行 分 





> score<-c( 88, 
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85, 


75, 


97, 


92, 


77, 


74, 


70, 


63, 


97) 
> cut(score, 


breaks = 3)# 将 成 绩 分 为 


3 组 


[1] (85.7, 


97] (74.3, 


85.7] (74.3, 


85.7] (85.7, 


97] (85.7, 


97] (74.3, 


85.7] 
[7] (63. 


74.3] (63, 


74.3] (63, 


74.3] (85.7, 


97] 
Levels: (63, 


74.3] (74.3, 


85.7] (85.7, 


97] 
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Crete 














> cut(score, 
breaks = 2 )# 将 成 绩 分 为 


2 组 


[1] (80, 
97] (80, 
97] (63. 
80] (80, 
97] (80, 
97] (63. 
80] (63. 
80] (63. 
80] (63. 


80] 
[10] (80, 


97] 
Levels: (63, 


80] (80, 


97] 
> 





3.2.5 ”循环 语句 


1.for 循 环 


及 语言 的 for 循 环 与 Python 类 似 ， 都 是 通过 在 对 象 中 进行 迭代 实现 循环 ， 但 R 语 言 中 不 
能 在 该 循环 中 直接 设置 起 始 值 、 终 止 值 与 步 长 。 示 例如 下 : 


o 





y<- (11:20) 
for (i in 1:length(x)){ 
z[i]=x[i]^2+y[i]^2 


vVvt+t+vvvv 


z 
[1] 122 148 178 212 250 292 338 388 442 500 





2.while 循 环 
while 语 句 每 次 会 检查 循环 条 件 ， 如 果 条 件 不 再 满足 ， 则 终止 循环 。 示 例如 下 : 
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一 
> x<-c(1:10) 

i=1 

while (x[i]42<10) 

i=i+1 

x[i]=x[i]^2 


V++++VV 


X 
[1] 1434567 8 9 10 





3.2.6 条件 语句 


if ,else .是 R 语 言 的 条 件 语句 。 该 语句 通过 检查 执行 条 件 来 确定 是 否 继续 往 下 执行 ， 
如 果 条 御 满 是 ， 则 执行 if 后 面 的 对 应 语句 ， 和 否则 执行 else 后面 的 对 应 语句 。 示 例如 下 ; 








y<-(11:26) 

for (i in 1:length(x)){ 
if ((x[i]^3>y[i]^2)) 
z[i]=x[i]^3 

else 

gel’ 


YY 


Zz 
[1] 121 144 169 196 225 256 343 512 729 1000 
T_T... 
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3.3 ”R 语 言 科学 计算 
3.3.1 分 类 (组 ) 统计 
R 语 言 分 类 统计 主要 包括 数据 分 类 整理 、 统 计 函 数 定义 、 数 据 分 类 统计 3 个 过 程 。 下 
面 以 对 水 果 的 价格 进行 分 类 统计 为 例 说 明 。 
1. 准 备 分 组 数据 





> fruit_class<-c( "38 





"橘子 


"草莓 


Ez 


"草莓 


"草莓 


> fruit_prices<-c(3.5, 


2.5, 
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5.8) 


2 .平均 价格 统计 


_ 通过 在 tapply 函 数 中 指定 mean 函 数 为 其 参数 ， 可 实现 分 组 求 平均 值 。 计 算 结 果 分 2 
行 ， 第 1 行为 组 名 ， 第 2 行为 tapply 函 数 最 后 一 个 函数 参数 的 运算 结果 。 示例 如 下 : 











> tapply(fruit_prices, 


fruit_class, 


mean) 


5.366667 2.600000 2.500000 3.850000 





3. 最 低 价格 统计 
通过 在 tapply 函 数 中 指定 min 函 数 为 其 参数 ， 可 实现 分 组 求 最 小 值 。 示 例如 下 : 





> tapply(fruit_prices, 


fruit_class, 


min) 草莓 
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4.8 1.5 2.5 3.5 





4. 标 准 差 统 计 
通过 在 tapply 函 数 中 指定 sd 函数 为 其 参数 ， 可 实现 分 组 求 标准 差 。 示 例如 下 : 





> tapply(fruit_prices, 


fruit_class, 





0.5131601 0.7527727 NA 0.4949747 





5. 标 准 误 


标准 误 即 样本 均 数 的 标准 差 ， 是 摘 述 均 数 抽样 分 布 的 离散 程度 及 衡量 均 数 抽样 误差 
大 小 的 尺度 ， 反 映 的 是 样本 均 数 之 间 的 变异 。 


但 是 ， 请 注意 ， 标 准 误 并 不 是 标准 差 ， 而 是 样本 均值 的 标准 差 ， 是 用 来 衡量 抽样 误 
差 的 ， 其 计算 公式 为 : 
N 


a 





其 中 ，S$ 为 样本 标准 差 。 标准 误 越 小， 表明 样本 统计 量 与 总 体 参数 的 值 越 接近 ， 样 本 
对 总 体 越 有 代表 性 ， 用 样本 统计 量 推 晰 总 体 参数 的 可 靠 程度 越 大 。 


站 定 自 定义 函数 stderr 为 其 参数 ， 来 实现 分 组 求 标 准 误 。 示 例 
OP: 











> stderr <- function(x) sqrt(var(x)/length(x) )# 自 定义 








stderrmx 


> tapply(fruit_prices, 
fruit_class, 


stderr) 
草莓 
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0.2962731 0.3763863 NA 0.3500000 





3.3.2 ”数组 与 矩阵 基础 


R 提 供 了 简单 的 工具 以 处 理 数组 和 和 矩阵 。 
1. 数 组 与 矩阵 的 维 数 


a AEE MAR SEAT LAL (或 if ye Pe 
EE HON GPIO UR ATESL. AFCA dimes BORE LA, A 

















> dim(my_num)<-c(2 


5 )### 指 定数 组 维度 


> my_num 
D 


11 34 14 21 11 


] 22 71 68 22 34 
> dim(my_num)<-c(10) 
> my_num 
[1] 11 22 34 71 14 68 21 22 11 34 





2. 切 片 


切片 是 操作 多 维 数据 ( 甜 阵 、 数 组 等 ) 的 主要 手段 ， 它 以 索引 为 参数 获取 数组 或 算 
阵 的 一 部 分 。 比 如 : 想 要 得 到 多 维 数组 的 一 个 切片 ， MAURIA FISIM, 取得 某 块 
数组 。 PERE AEA EEE T e, 


索引 的 形式 主要 有 以 下 几 种 : 
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[index1, index2, ..., indexn]. n index2 等 分 别 标明 了 元 素 在 相应 维 数 的 索 
FTIR A eee, 标注 需要 取出 的 元 素 ， 进 行 切片 ， 形 成 数组 块 。 比 如 : 数 
Hatt CGO oo RACE ROI 


2) [c(index1，index2，...，indexn)]。index1、index2 等 n 个 整数 标注 了 元 素 的 位 置 ， 
将 这 些 标注 的 元 素 取出 后 ， 组 成 数组 块 。 这 些 元 素 的 位 置 以 列 为 顺序 排列 ， 比 如 ， 数 组 a 
的 大 小 为 3x2 (3 行 2 列 ) ， 切 片 操作 a[c(1，2，3，4，5，6)] 依 次 取出 以 下 元 素 : a[1，1]、 
a[2, 1], a[3, 1]. all, 2]. a[2, 2], alB, 2]. 


切片 操作 示例 如 下 : 








J 12 15 982 


3] )### 获 取 第 
1 行 第 

2 列 数据 (为 
15) 、 第 

2 行 第 

3 列 的 数据 (为 


321) 


[1] 15 321 
> h[2, 


32 67 321 


] 
[1] 
> h[c(1， 


2 
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3 ) ]### 逐 列 获取 第 


ae 


2. 


3 个 数据 


[1] 12 32 15 
> _h [6 ]### 逐 列 获取 第 


6 个 数据 


[1] 321 
> h[4] 
[1] 67 





3.28 5| [Ale 


数组 可 作为 索引 使 用 ， 且 数组 也 是 向 量 ， 因 此 作为 索引 的 数组 可 称 为 索引 向 量 。 下 
面 的 代码 演示 了 向 量 c(1:3，5:4，3:5) 作 为 索引 的 情况 。 


1) 创建 数组 x 和 i，x 是 被 切片 的 数组 ，i 是 索引 问 量 。 











> array(10:20， 


dim=c(2, 


5))->x 
> X 


[. 


1] [， 


2] [， 


3] D 


4] b 


] 11 13 15 17 19 


> array(c(1:3, 


3:5), 


dim=c(2, 
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2) 以 i 为 索引 向 量 提取 数组 块 ， 索 引 向 量 每 个 元 素 代 表 切 片 的 位 置 ， 将 这 些 位 置 指 
向 的 元 素 提 取出 来 ， 形 成 数组 块 《〈 数 组 切片 ) 。 示 例如 下 : 





> x[i] 
[1] 10 11 12 14 13 12 





通过 索引 对 数组 茶 个 元 素 赋 值 。 示 例如 下 : 


> x[i]<-111 
> X 


[， 





1] D 
2] L 
3] L 
4] [. 


5] 
[1, 


] 111 111 111 16 18 
[2， 


] 111 111 15 17 19 





4.array PA BL 
ee 它 的 参数 主要 有 两 个 ， 第 一 个 是 需要 形成 数 
SOUR Sis 个 是 dim 参 数 提 示 维 度 。 下 面 的 代码 演示 了 array 函 数 创建 数组 的 方 








法 ， 并 通 过 dim 子 狐 获 取 数 组 的 大 小 


> c(1:20)->h 
> mya<-array(h， 





dim=c(4， 
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4 8 12 
> mydim<-c(2, 


10) 
> mya<-array(h, 


dim=c(2, 


10)) 
> mya 


[， 


1] D 


2] 5 


3] L 


4] b 


5] L 


6] D 


7] DL 


8] L 


9] [， 


13 


14 


15 


16 


17 


18 


19 


20 
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mére 

















[1 

1 3 5 7 9 11 13 15 17 19 
[2， 
] 2 4 6 8 10 12 14 16 18 20 
> 
> dim(mya) 
[1] 2 10 





array PAH TBAB Die E Ay De ML, OB its: 





> mya<-array(1, 


dim=c(2, 


10)) 
> mya 


[， 





5. 数 组 转换 为 向 量 
as.Vector 疯 数 可 将 数组 转换 为 向 量 。 示 例如 下 : 








> x<-array(c(1:10), 


dim=c(2, 
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6 8 10 
> as.vector(x) 
[1] 1 2 3 4 5 6 7 8 9 10 





6.matrix 和 矩阵 


使 用 matrix 函 数 可 创建 矩 阵 〈 从 数学 角度 定义 的 矩阵 ) ， 主要 参数 为 : data 表 示 构 造 
ii i Se 数 ，ncol 为 列 数 ，byrow 表 示 是 否 按 行 顺 序 分 配 元 素 〈 默 认为 
» AT) o 














> matrix(c(1:10), 


6 7 8 9 10 
> matrix(c(1:10), 


2 
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7 Ot Ff BE 


对 角 和 矩阵 是 一 个 除 主 对 角 线 上 的 元 素 之 外 名 为 0 的 矩阵 ， 对 角 线 上 的 元 素 可 以 为 0 或 
其 他 值 。 通 过 diag 函 数 可 生成 和 分 本 对 角 和 矩阵 ， 如 果 参 数 为 一 维 数组 ， 则 将 参数 视 为 对 角 
线 元 素 ， 并 生成 对 角 和 矩阵 ， 如 果 参 数 为 一 维 以 上 数组 ， 则 将 参数 视 为 对 角 和 矩阵 ， 对 它 进行 
分 析 ， 可 提取 对 角 线 元 素 。 相 关 示例 如 下 : 





>a 
[1] 12345678 
> 





> diag (a) #H## AE mX fi ibe 
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] 
[8， 


] 
> a<-array(c(1:16), 


dim=c(4， 


4) ) 
> diag(a)### 提 取 对 角 线 元 素 





0 


0 


0 


1 611 16 
L 

上 5 9 
2 6 10 
3 7 11 
4 8 12 


3.3.3 “数组 运算 


1. 四 则 运算 


数组 四 则 运算 的 规律 是 : 对 应 位 置 的 元 素 分 别 计 算 ， 而 不 是 依据 矩阵 的 数 
则 。 运 算 符 为 “+”( 加 ) 、“-”( 减 )、“*”( 乘 ) 等 ， 运 算 优 先 


13 


14 


15 


16 


0 0 0 
0 0 0 
0 0 0 
6 0 0 
0 7 0 
0 0 8 
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先 乘 后 加 减 。 示 例如 下 : 





> mya 


[， 


10] 
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] 
[2， 


2 2 2 2 2 2 2 2 2 2 
> myatmyb 


1] D 
2] ik 
3] D 
4] E 
5] D 
6] D 
7] D 


8] L 


4 6 8 10 12 14 16 18 20 22 
> mya*myb 


1] D 
2] D 
3] D 
4] [， 
5] D 
6] D 
7] D 
8] D 
9] b 


10] 
[1 
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] 
[2， 


] 4 8 12 16 20 24 28 32 36 40 
> 3*mya*myb 
[; 


1] b 
2] [， 
3] D 
4] [， 
5] D 
6] D 
7] D 


8] L 


] 6 18 30 42 54 66 78 90 102 114 


J 12 24 36 48 60 72 84 96 108 120 


> mya*myb+mya# 先 乘 后 加 


1] D 
2] [， 
3] D 
4] [， 
5] [， 
6] D 
7] [， 


8] D 
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10] 

[i 

] 3 9 15 21 27 33 39 45 51 57 

[2 

] 6 12 18 24 30 36 42 48 54 60 
2. 向 量 连 接 

向 量 连接 指 的 是 将 两 个 向 量 通过 茶 种 规律 连接 成 一 个 数组 。R 语 言 的 cbind 和 rbind 函 
数 可 进行 向 量 连接 ， 其 中 cbind 函 数 将 向 量 的 行 转变 为 列 后 再 连接 ，rbind 函 数 将 向 量 的 列 








转变 为 行 后 再 连接 。 示 例如 下 : 


> x2<-c(101:105) 
> x1<-c(1:10) 
> cbind(x1, 





x2) 


101 


102 


103 


104 


105 


101 


102 


103 


104 


] 10 105 


> rbind(x1, 


x2) 
[， 
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1] D 


2] L 


10] 
x 1 2 3 4 5 6 7 8 9 1 
x2 101 102 103 104 105 101 102 103 104 105 





3.3.4 SEPZ 


LAERE 


R 语 言 的 cbind 函 数 完成 矩阵 的 横向 连接 ，rbind 函 数 完 成 矩阵 的 纵向 连接 。 下 面 是 关 
于 和 矩阵 的 连接 操作 示例 。 











> x3<-matrix(c(1:10), 


5) 
> x4<-matrix(c(101:105), 
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] 101 103 105 102 104 
[2， 


] 102 104 101 103 105 
> cbind(x3, 


] 1 3 5 7 9 101 103 105 102 104 


il 2 4 6 8 10 102 104 101 103 105 
> rbind(x3, 


x4) 
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] 101 103 105 102 104 
4, 


] 102 104 101 103 105 





2. 和 矩阵 转 置 
线性 代数 将 矩阵 A 的 转 置 〈 记 做 AI ) 定义 为 : 
把 A 的 横行 写 为 AL 的 纵 列 ; 
把 A 的 纵 列 写 为 AL 的 横行 。 
根据 上 述 计 算法 则 ，mxn 和 矩阵 A 的 转 置 生成 pxm 和 矩阵 AI 。 


Ai=di, Lsign, 1SjSm 


Rid a tea ACET FERAE REFE Bit o 











> array(h, 


dim=c(2, 


5))->mya 
> mya 
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5] 
[1, 


] 2 8 10 

> 七 (mya )### 算 阵 转 置 
i 

1] [ 

2] 

[1, 

] 1 2 

[2， 
3 4 

[3， 

] 5 6 

[4， 

] 7 8 

[5， 

] 9 10 

















个 参数 是 需要 转 置 的 算 阵 ， 第 Fe einem A Ce Be are RE a 
标 。 需 要 特别 注意 的 是 ， 第 二 T a 下 标 。 比 如 ， 将 行 转换 为 列 ， 将 列 转换 
为 行 ， 将 行列 次 序 更 换 ， 将 第 一 维 的 元 素 与 第 二 维 的 元 素 互 换 ， 则 将 perm 设 为 c((2，1)。 
下 面 的 代码 演示 了 aperm 函 数 的 使 用 方法 。 

> array(h, 

dim=c(2， 

5))->mya 

> mya 

[; 

1] [ 

2] [ 

3] [ 

4] [ 

5] 

[1, 
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> aperm(mya, 


perm=c(2， 


工 ) ) ->myb### 以 


c(2, 


1) 为 维度 下 标 进 行 转 置 


> myb 
[s 


1] D 


2] 
[1, 


[2, 


] 9 10 
> 


> array(mya, 


c(2, 


5))->mya1 
> myat, 
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10 
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8 10 
> aperm(myat, 


perm=c(2， 


3))->myb1### 以 


c(2, 
1, 
3) 为 维度 下 标 进 行 转 置 
> myb1, 
1 
k 
1] [ 
2] 
[1, 
] 1 2 
[2， 
] 3 4 
2 
[; 
1] [ 
2] 
[1, 
5 6 
[2， 
] 7 8 
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bs 
1] [ 
2] 
[1, 
] 9 10 
E? 
] i 2 
4 
Ü 
1] [ 
2] 
[1, 
] 3 4 
[2. 
] 5 6 
5 
bs 
1] [ 
2] 
[i 
] 7 8 
[2. 
9 10 


> aperm(myal 


perm=c(1, 


2))->myb1 
> myb1, 
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3. 和 矩阵 乘积 


若 A 为 mxn 和 矩阵 ，B 为 nxr 抢 阵 ， 则 它们 的 乘积 AB (有 了 时 记 做 A:B 
阵 ， 前 提 是 m 与 n 必 须 相 同 ， 窍 阵 乘 积 使 用 %*% 操 作 符 进行 计算 。 示 仿 





wana bbt . cam 











WEA 


mére 

















) 
p 


会 是 一 个 mxr 的 矩 


HF: 


5] 
[ 工 ， 
1 3 5 7 9 
[2， 
2 4 6 8 10 
> b 
[， 
1] [ 
2] 
[ 工 ， 
1 6 
[2， 
] 2 7 
[3， 
3 8 
[4， 
] 4 9 
[5， 
5 
>a %*% b 
[x 
1] [ 
2] 
[1. 
] 95 220 
[2， 
] 110 260 





4. 内 外 积 运算 


1) 向 量 外 积 。 向 量 的 外 积 是 矩阵 的 克 罗 内 克 积 的 特殊 情况 。 给 定 mx1 列 向 量 u 和 1xn 


行 向 量 v， 它 们 的 外 积 u vine X7ym xn FE BEA 


u) v=4=uy 


amo v 的 计算 定义 为 : 
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h mb, mb, ah 
ac a h al- mb, mb, ah 


i mb; anh; asp; 


b mb, Mb, ab, 


下 面 的 代码 演示 了 a 和 b 数 组 作为 向 量 的 外 积 运算 和 普通 乘法 运算 。 





> b<-array(c(1:4)) 
> a<-array(c(5:6)) 
> b%o%a### 外 积 


[1] 5 6 

> b<-array(c(1:4)) 
> a<-array(c(5:8)) 
> a*b### 普 通 乘法 


[1] 5 12 21 32 
b 


[1] 5678 
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[2, 

6 12 18 24 
[3, 

7 14 21 28 
[4， 


] 8 16 24 32 








此 外 ， 还 可 以 使 用 Outer(a，b, RRA% AFUE o 


2) 向 量 内 积 。 i 以 实数 R 上 定义 的 两 个 向 量 为 运算 对 象 ， 返 回 一 个 实数 标量 
值 ， 属 于 二 元 运算 ， 它 是 欧 几 里 得 空间 的 标准 内 积 。 


两 个 向 量 a=[al ，a2 ，...，an ] 和 b=[b1 bo, ..., by ] 的 内 积 定义 为 : 





n 
q+ b= j abab tabt +a, 
il 
R 语 言 通过 crossprod 函 数 完 成 向 量 内 积 计算 。 示 例如 下 : 





> a<-c(1:3) 
> b<-c(4:6) 
> crossprod(a, 


b) 
[; 
1] 
[1, 
] 32 
> a<-c(1:3) 





3) 和 矩阵 内 积 。 , 算 阵 内 积 的 计算 方式 相 当 于 第 一 个 参数 的 转 置 乘 以 第 二 个 参数 ， 就 是 
a ae 。 除 了 使 用 %*% 操 作 符 外 ， 还 可 以 使 用 crossprod 函 数 完成 第 阵 内 积 
Th. ANY : 





> b<-array(c(4:6), 


dim=c(1, 


3)) 
> a<-array(c(1:3), 
dim=c(1, 


3)) 
>a 
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2] L 


3] 
[1, 


4 5 6 
> crossprod(a, 


b )###a 与 


b 完 成 矩阵 内 积 计算 


] 12 15 18 
> t(a) %*% b###a 的 转 置 与 


b 完 成 矩阵 内 积 计算 
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5. 求 解 线性 方程 组 
e es te b 中 的 x 回 量 值 ， 求 解 线 性 方程 组 仅 使 用 solve 函 数 
的 前 两 个 参数 ， 第 一 个 a 为 系数 和 矩阵， 第 二 个 b 为 常数 项 ， 当 b 缺 失 时 ， 默 认为 单位 和 矩阵。 
示例 如 下 : 
> b 
È 
1] 
[1, 
[2 
] a 
L 
1] [ 
2] 
[1, 
l, 1 3 


] 2 
> solve(a, 


b) 





-e 
过 solve 函 数 可 进行 矩阵 求 道 计算 ， 只 指定 1 个 参数 〈 待 求 道 的 矩阵) 即 可 。 示 例如 
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7. 和 矩阵 的 特征 值 求解 


1) 特征 值 概念 。 和 是 A 的 特征 值 等 价 于 线性 系统 A-A) v=0〔 其 中 I 是 单位 矩阵 ) 有 
非 零 解 v (一 个 特征 向 量 ) ， 特 征 值 存在 等 价 于 下 面 行列 式 成 立 : 


det(A-AI)=0 


函数 pA (A)=det(A-ANE—-TAPAN SUA, PRAAM REE S HA. FEB IR EE th 
就 是 其 特征 多 项 式 的 零点 。 


求 一 个 矩阵 A 的 特征 值 可 以 通过 求解 方程 pA (A)=0 来 得 到 。 
2) R 语 言 求解 特征 值 。 利 用 R 语 言 的 eigen 函 数 可 求解 特征 值 ， 调 用 格式 如 下 : 





eigen(x, 


symmetric, 


only.values = FALSE) 








Fl, ARERIA; symmetric 4h, ZANE AMT PRE BRE, IRE 
阵 是 一 个 方形 和 矩阵， 其 转 置 矩阵 和 自身 相等 ， 即 : A=AT , 对 称 和 矩阵 A=(aij ) 从 右上 至 左 
下 方向 的 元 素 以 主 对 角 线 《左上 至 右 下 ) 为 轴 对 称 ， 即 : aj ”=aji  。only.values 如 果 为 
TRUE， 则 只 返回 特征 值 ， 否 则 返回 特征 值 和 特征 向 量 。 


下 面 的 代码 演示 了 eigen 函 数 计算 特征 值 的 方法 。 











> a<-array(c(1:16), 


dim=c(4， 
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4)) 
> eigen(a )### 计 算 


a 的 特征 值 

$values 

[1] 3.620937e+01 -2.209373e+00 1.599839e-15 7.166935e-16 
$vectors 

1] [; 

2] L 

3] [; 

4] 

[1, 


] 0.4140028 0.82289268 -0.5477226 0.1125155 
[2， 


] 0.4688206 0.42193991 0.7302967 0.2495210 
3 
] 0.5236384 ©.02098714 0.1825742 -0.8365883 
4, 


] 0.5784562 -0.37996563 -0.3651484 0.4745519 
> 


> eigen(a, 


only.values=FALSE) 


$values 
[1] 5.3722813 -0.3722813 
$vectors 
L 
1] [; 
2] 
[1, 


] -0.5657675 -0.9093767 
2 


] -0.8245648 0.4159736 





8. 求 解 矩 阵 行列 式 


”行列 式 是 线性 代数 中 的 一 个 概念 ， 将 一 个 nxn 的 矩阵 A 映射 到 一 个 标量 ， 记 作 det(A) 
或 |Al|。 行 列 式 可 看 作 是 有 向 面积 的 概念 在 一 般 的 欧 几 里 得 空间 中 的 推广 。 


比如 ， 假 设 和 矩阵 A 定 义 为 : 
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gh i 
则 和 矩阵 A 的 行列 式 |A| 可 定义 为 ; 
abc 
=d e f 
ehi 


R 语 言 的 det 函 数 可 求解 矩阵 对 应 的 行列 式 值 ， 即 : 已 知 和 矩阵 A， 求 解 |Al。 示 例如 下 : 


> a<-array(c(1:4), 





dim=c(2， 


2)) 
> det(x) 
[1] -2 


> 





9. 奇 异 分 解 
奇异 值 分 解 是 线性 代数 中 一 种 重要 的 矩阵 分 解 ， 在 信号 处 


ae 


统计 学 等 领域 有 重要 


应 用 。 假 设 M 是 一 个 mxn 阶 和 矩阵， 其 中 的 元 素 全 部 属于 域 K CEM AD 设 存 在 
一 个 分 解 使 得 : 
M=UxVv* 


ieee > 是 半 正 定 mxn 阶 对 角 和 矩阵 ; V* GIVARE) 是 nxn 
f) 


这 种 分 解 称 作 M 的 奇异 值 分 解 ，2 对 角 线 上 的 元 素 员 ，i 即 为 M 的 奇异 值 。 
使 用 R 语 言 的 svd 函 数 可 完成 奇异 分 解 。 示 例如 下 : 








> array(c(1:16), 
dim=c(4, 


4))->a 
>a 


[， 


1] [， 
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2] lls 


4 8 12 16 
> svd(a)### 奇 异 分 解 


$d 

[1] 3.862266e+01 2.071323e+00 1.291897e-15 6.318048e-16 
$u 

E 

1] [， 

2] [s 

3] bs 

4] 

[1, 


] -0.4284124 -0.7186535 0.5462756 -0.0397869 
[2， 


] -0.4743725 -0.2738078 -0.6987120 0.4602190 
[3， 


] -0.5203326 0.1710379 -0.2414027 -0.8010772 
[4， 


] -0.5662928 0.6158835 0.3938391 0.3806452 
$v 
[i 


1] Ls 
2] [, 


3] [; 


] -0.1347221 0.82574206 -0.4654637 -0.2886928 
[2, 
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] -0.3407577 0.42881720 ©.4054394 0.7318599 
[3， 


] -0.5467933 0.03189234 0.5855124 -0.5976414 
[4， 


] -0.7528288 -0.36503251 -0.5254881 0.1544743 
| 
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3.4 Rig 言 计 算 实 例 

3.4.1 学 生 数 据 集 读 
RR 语言 天 Hel 

生 数 据 canvas te 

1) Te ee 


.) ) ， 学 生 
class (班级 ， ee 


> 其 中 包含 


语法 是 : list 


= 
a 


SHR Ak: name 类 
龄 ， 类 型 为 数值 型 





R 语 言 可 以 使 用 list 组 件 创建 与 读 写 学 


不 同 的 数据 类 型 
(字段 1= 组 件 1， 


y 


字段 2= a 
类 型 为 字符 型 ) 、 





> list(name="sStudents", 


class="101" 


stdt.ages=c(22 


25, 


20), 


stdt.name=c("zhangsang" 


"lisi", 


"wangwu") )->mystudents 





2) 读 取 列 表 。 下 面 的 代码 读 取 刚才 创建 的 学 生 数 据 集 : 





> mystudents 
$name 
[1] "students" 


[1] 22 25 20 
$stdt.name 
[1] "zhangsang" 


"lisi" "wangwu" 





3) 获取 学 生 数 据 集 的 字段 总 数 〈 通 过 length 返 


回 list 组 件 的 数量 ) 。 





> length(mystudents) 
[1] 4 





4) 查看 数据 集中 所 有 学 生 的 姓名 和 年 龄 
2E 


通过 “列表 变量 名 $ 字 段 名 ”提取 组 件 内 





> c(mystudents$stdt.name 


mystudents$stdt.ages) 


[1] "zhangsang" "lisi" "wangwu" "22" 


"25" "20" 





此 外 ，R 语 言 还 提供 了 


worn bbt. cam DREA 


一 个 很 不 错 的 list 组 件 data.frame， 


它 内 部 可 拥有 很 多 组 件 。 下 


pine 

















面 接着 以 学 生 数据 为 例 讲 解 data.frame。 
1) 创建 data.frame 组 件 ， 存 储 学 生 数 据 。 








> 
data. frame(name=mystudents$stdt.name 


age=mystudents$stdt.ages)->mysts 
> mysts 
name age 
1 zhangsang 22 
2 lisi 25 
3 wangwu 20 











2) 将 数据 集中 的 年 龄 都 增长 1 岁 〈 随 着 新 的 一 年 到 来 ， 学 生 们 都 长 大 了 1 岁 ) ， 完 成 
这 个 操作 可 使 用 attach 和 detach 方 法 。 

前 面 一 直 用 $ 符 号 访问 list 列 表 的 字段 ， 当 R 语 言 的 代码 较 多 时 ， 列 表 组 件 名 前 级 访问 

很 不 方便 ， 因此 ， Rig 言 提 供 了 另 一 对 非常 有 用 的 工具 attach 和 detach: attach 把 数据 


字段 
集 的 所 有 学 段 复 制 一 从 副本 ， 妇 定 在 搜索 路 径 ， 这 样 可 以 直接 读 取 它们 LERI, 5E 
WHEL, HAEREA | EA A CReUNSLIE-ZoPs CMAN 


1) 用 attach 将 学 生 数据 集 的 字段 副本 绑 定 在 搜索 路 径 中 。 























> attach(mysts) 

> age 

[1] 22 25 20 

> name 

[1] zhangsang lisi wangwu 
Levels: lisi wangwu zhangsang 





2) 将 绑 定 的 age 字段 副本 加 1， 并 显示 更 新 后 的 学 生 数 据 。 





> age+1->mysts$age 
> mysts 


name age 
1 zhangsang 23 
2 lisi 26 
3 wangwu 21 





3) 使 用 detach 将 字段 副本 从 搜索 路 径 上 删除 〈 解 绑 ) 。 





> detach(mysts) 
> age 错误 


: 找 不 到 对 象 


'age' 
> _ name 错误 


: 找 不 到 对 象 


“name ' 





3.4.2 ”最 小 二 乘法 拟 合 





1. 最 小 二 乘法 与 回归 
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二 乘法 是 一 种 数学 优化 技术 ， 它 通过 最 小 化 误差 的 平方 和 找到 一 组 数据 的 最 佳 


假设 存在 (x, y) 这 两 个 变量 ， 对 于 一 系列 的 x 变 量 值 ， 有 一 系列 的 y 值 与 其 对 应 ， 
可 以 找到 这 两 个 变量 之 间 的 相 百 关 素 。 比如 : 对 于 一 次 函数 来 说 ， 可 将 这 些 Cx, y) 值 标 
ee 从 而 得 到 一 条 直线 ， 这 些 点 就 在 这 条 直线 附近 。 那 么 ， 直 线 方程 的 定 








y=kx+b 
其 中 : k、b 是 任意 实数 ，k 为 斜率 ，b 为 截 距 。 


下 面 以 y1 =3x+12 和 y? =6x+12 为 例 进行 分 析 。 如 图 3-33 所 示 ， 实 线 为 y1 的 图 像 ， 虚 
线 为 y 的 图 像 。 从 图 像 能 直观 看 出 ， 和 斜率 越 大 ， 直 线 越 了 尘 。y1 的 斜率 是 3， 载 距 为 12;， yo 
的 斜率 是 6， 截 距 为 12，y2 方程 的 图 像 明显 比 y1 Be. 


线性 拟 合 
80 


aaa a ii 





























-10 -8 -6 -4 -2 () 2 
af 
图 3-33 ”直线 的 图 像 
图 3-33 中 标注 的 圆 图 和 星 号 为 x, me 格式 表示 的 二 维 数据 点 ， 很 明显 ， 圆圈 的 数 
据点 位 于 y1 =3x+12 上 ， 而 星 号 的 数据 点 位 于 y2 =6x+12 上 。 这 些 二 维 数据 点 被 y1 =3x+12 
Alyy =6x+12 方 程 的 图 像 连接 。 这 样 做 的 好 处 是 ， 我 们 不 需要 记忆 这 些 数据 点 的 坐标 就 能 


预测 类 似 数据 点 的 位 置 。 比 如 说 ， 已 知 x 为 1.5 时 ， 想 要 求 圆圈 数据 点 的 坐标 ， 可 直接 将 
x=1.5 代 入 y1 方程 得 到 : 
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y=1.5x3+12=16.5 
这 样 束 可 用 y=kx+b 形 式 的 一 次 方程 拟 合 数据 点 ， 这 个 过 程 为 线性 拟 合 。 拟 合 的 目标 


是 这 些 点 到 这 条 下 线 的 距离 的 平方 和 最 小 。 最 小 二 乘法 是 效果 较 好 的 线性 拟 合 方法 ， 最 小 
pee 点 的 过 程 就 是 对 数据 做 回归 分 析 ， 我 们 把 类 似 图 中 的 这 几 条 直线 称 为 回归 

















2. 最 小 二 乘法 拟 合 
R 语 言 提供 了 lsift 函 数 ， 可 完成 最 小 二 乘法 拟 合 ， 其 主要 参数 如 下 。 
X: 一 个 矩阵 的 行 对 应 的 情况 和 其 列 对 应 为 变量 。 
Y: 结果 ， 可 以 是 一 个 矩阵 。 
Wt: 可 选 参数 ， 加 权 最 小 二 乘法 的 执行 权重 向 量 。 
‘Intercept: 是 否 应 使 用 截 距 项 。 
‘Tolerance: AAA THERESE. 
“Yname: 用 于 响应 变量 的 名 称 。 


下 面 来 看 看 y=2x 回 归 方程 拟 合 ， 这 里 以 x= (1，2，3，4) ，y= (2，4，6，8) 为 例 
在 R 中 进行 数据 拟 合 。 




















> y<-c(2, 


4) 

> Isfit(x, 
y )### 下 面 的 
X 为 常数 项 ， 


Intercept 为 截 距 


$coefficients 
Intercept X 
0 











”上述 拟 合 结果 中 ，Intercept 项 表示 截 距 ，x 项 表示 方程 的 x 变 量 的 常数 项 ， 因 此 ， 回 归 
方程 为 y=2x+0=2x。 
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网 
y=2xt3. 


1) 根据 回归 线 构造 x 和 y 值 。 





> y<-c(5, 


4) 





2) 执行 lsfitO 函 数 进行 拟 合 。 





> lsfit(x, 


y 

$coefficients 

Intercept X 
3 2 











上 面 lsfitO 函 数 的 运行 结果 表明 ， 这 些 数据 点 的 回归 方程 为 yY=2x+3。 
3.4.3 ”交叉 因子 频率 分 析 
交叉 因子 频率 分 析 的 作用 在 于 分 析 数 据 的 分 布 区 间 及 其 统计 指标 。 下 面 举 例 说 明 分 


IITE o 


1)〉 划 分 数据 分 布 区 间 。 使 用 cut 逊 数 将 变量 y 中 存储 的 数字 划分 到 5 个 分 布 区 间 : 
[11，15]、[15，19]、[19，23]、[23，27]、[27，31] 示 例如 下 : 





> y<-c(11, 
22, 
13, 
14, 
11, 
22, 


31, 
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31, 
31, 


14) 
> cut(y, 


5)->cuty 
> cuty 
[1] (11, 


15] (19, 
23] (11, 
15] (11, 
15] (11, 
15] (19, 
23] (27, 
31] (27, 


31] (27, 


31] 
[10] (41, 


15] 
Levels: (11, 


15] (15, 
19] (19, 
23] (23. 
27] (27, 


34] 





2) 使 用 table 函 数 统计 数据 在 每 个 区 间 出 现 的 频率 。 代 码 如 下 : 





> table(cuty) 
cuty 
[11， 


15] (15， 


19] (19, 


23] (23， 
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27] (27, 


31] 
5 0 2 0 3 





ZN o 


3) 使 用 hist 函 数 生成 分 
通过 指定 breaks 参 数 CY 
画 刻 度 ) ， 将 数据 在 table 商 数 生 成 的 区 间 进行 划分 





为 各 区 间 的 边 


布 直方 图 ， CE SEM 
设置 界 人 


观察 数据 分 布 情况 ， 如 图 3-34 所 
和 axes 参 数 设置 为 FALSE 表 示 手 动 
。 代 码 如 下 : 





+ 





> bins<-seq(min(y), 


max(y), 


by=4) 
> hist(y, 


breaks=bins, 


col="lightblue" 


axes=FALSE) 
> axis(1, 


bins) 
> axis(2) 





分 布 ， 


结合 table 函 数 的 执行 结 


2) 从 图 3-34 中 可 观察 到 ， 数 据 分 布 情 





变量 y 中 的 数据 在 这 两 个 区 间 内 出 现 频 率 为 0。 
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以 及 hist 函 数 生成 的 直方 图 ， 可 得 到 以 下 结论 : 


、 D 分 析 table 函 数 的 执行 结果 可 看 出 ， 数 据 主要 集中 在 [11，15] 区 和 间 中 ， 
间 内 分 布 的 数字 最 多 ， 该 区 间 内 有 5 个 数字 。 此 外 ， 在 [15，19]、 


[11，15] 区 
[23，27] 区 间 中 没有 数据 


至 况 与 table 函 数 执行 结果 相 吻 合 。 


MARE 














Histogram of y 


un 


Frequency 
bho 


0 
Coo ok ED a 中 
aw R A J M 


图 3-34 分布 直方 图 
3.44 向 量 模 长 计算 
向 量 模 长 即 欧 几 里 得 范 数 ， 在 n 维 欧 几 里 得 空间 Rn 上 ， 疝 量 x= Cxl ，x2 ，.…，xn ) 














xX || — 
根据 勾 股 定理 ， 它 给 出 了 从 原点 到 点 x 之 间 的 距离 。 
1. 模 长 函数 定义 


R 拥 有 自 定义 函数 功能 ， 可 按 如 下 格式 定义 : 





函数 名 


<-function( 参 数 


n 
函数 体 
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} 


下 面 定 义 求 三 维 向 量 模 长 的 vector_length 函 数 ， 完 成 模 长 计算 。 














> vector_length<-function(x1, 
X2， 


x3){ 

+ vlength<-sqrt (x142+x242+x342) 
+ vlength 

+} 


2. 模 长 计算 
调用 vector_length 函 数 ， 计 算 同 量 [12，33，19] 的 模 长 。 








> vector_length(12 
33, 


19) 
[1] 39.92493 
> 








N 维 向 量 的 模 长 计算 与 三 维 模 长 类 似 。 下 面 重新 定义 vectorn_length 函 数 ， 并 调用 它 计 
算 任 意 维度 向 量 的 模 长 。 





vectorn_length<-function(x){ 
temp<-0 

for (i in 1:length(x)){ 
temp<-temp+x[i]42 


vlength<-sqrt(temp) 
vlength 





V+++++++V 





# 下 面 调用 新 的 











vectorn_length 函 数 计 算 模 长 


> vectorn_length(c(11 
22， 
33, 
44, 


55 
[1] 81.57818 
> vectorn_length(c(11 


22, 


33, 
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55 
[1] 68.69498 





3.4.5 欧 氏 距离 计算 








RRES (Euclid Distance) 是 在 n 维 空间 中 两 个 点 之 间 的 真实 距离 ，n 维 欧 氏 空间 的 
PTR 以 表示 为 (x[1]，x[2]，.……，x[n])，X=(x[1]，x[2]，.…，x[nm) 和 Y=(y[1]，y[2]， 
.，y[n]) 这 两 个 点 之 间 的 距离 d(X，YY) 定 义 为 下 面 的 公式 : 


d(X，Y)=sqrt(>((x[i-y[i)A2)) 其 中 二 1，2，...，D 


利用 R 语 言 的 操作 符 自 定义 功能 完成 欧 氏 距离 计算 ， 操 作 符 的 定义 人 
式 定义 ， 实 际 使 用 时 ，% 也 属于 操作 符 的 一 部 分 。 SME Re LARP 








us 











操作 符 名 


<-function( 参 数 


语句 








下 面 定义 %~% 操 作 符 ， 并 计算 二 维 空 间 的 欧 氏 距离 。 示 例如 下 : 





> "%~%"<-function(x1 


N 
< 


{ 

temp<-0 

for (i in 1:length(x1)){ 
temp<-temp+(x1[i]-x2[i])^2 


edis<-sqrt(temp) 
edis 


V+++++++x 


# 使 用 


%~% 操 作 符 ， 计 算 二 维 空间 的 欧 氏 距离 


> c(1, 


2 


3) %-% c(5, 
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7) 
[1] 6.928203 
> 








可 以 将 计算 扩展 到 n 维 空间 中 。 使 用 R 语 言 的 不 定数 量 的 函数 参数 机 制 ， 来 定义 n 维 空 
间 的 欧 氏 距离 函数 mycount。 示 例如 下 : 





mycount<-function(...){ 
temp=0 

for (i in c(...))€ 
temp=tempt+1 


temp 


V++++++V 


mycount(11, 


33) 
[1] 3 
> mycount (11, 


22, 
33, 


66) 
[1] 4 
> mycount (11, 


22, 
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3.5 ne 


章 对 Python 语言 和 R 语 言 的 ; 吾 法 基础 以 及 相关 计算 平台 API 进 行 了 讲述 ， 同 时 ， 用 
大 量 SENET ROL ESE 


hon 语 言 百 = FIRES a 是 本 书 讲解 机 器 学 >J 用 到 的 主要 语言 百 ， 也 是 机 器 学 >J 工程 应 用 中 
可 能 后 到 的 编程 语言 ， 在 此 建议 大 家 平时 多 阅读 R 语 言 和 Python 语 言 的 官网 教程 和 相关 计 
算 平 台 资料 ， 加 深 对 它们 的 理解 。 


因 本 书 篇 幅 有 限 ， 更 多 的 关于 R 语 言 和 Python 语言 的 资料 可 以 查询 相关 官网 。 下 面 列 
举 了 常用 的 官网 链接 。 


R 语 言 文档 资料 链接 : 
http://cran.r-project.org/manuals.html 
Python 科学 计算 库 文档 资料 链接 : 
http://docs.python.org/2/ 
http://docs.scipy.org/doc/ 


http://docs.opencv.org/master/modules/refman.html 


从 下 章 开始 ， co a Cam a al 建议 大 家 在 浏览 器 中 将 
上 面 的 文档 能 接收 藏 ， 以 便 更 | 里 解 本 书 内 容 。 此 外 ， 从 本 章 开 始 ， 每 章 小 结 后 均 有 思 
考题 ， 希 望 大 家 在 阅读 本 书 的 过 程 中 ， 多 动手 ， EYI 理论 联系 实践 才 是 王道 。 

















HK 
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和 图 像 载体 文件 的 方法 ， 能 不 能 将 隐藏 


= 
RE 
=j 
2 
Ea 
2 
7 





虑 先 将 隐藏 了 信息 的 图 像 矩阵 读 入 ， 然 后 将 aoe 
， 再 用 原始 音乐 文件 作为 解码 的 密 铀 ， 解 码 图 像 数 据 后 ， 


下 
SA 
Iq 
= 
N 


ane aici 


R 语 言 分 析 一 个 数据 集 的 数据 ， 将 数据 分 为 适当 的 区 间 ， 然 后 统计 数据 在 每 
个 区 间 的 分 avis 并 作出 直方 图 。 


Q 提示 。 用 因子 频率 分 析 方 法 实现 。 


(3) 用 R 语 言 在 x 和 y 之 间 建 立 回归 模型 ， 得 出 回归 直线 方程 ，x=[1，3，8，9], y= 
[2，8，23，80] 




















Q 提示 使 用 R 语 言 的 回归 计算 函数 分 析 。 
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径 。 














从 目前 的 发 展 情形 来 看 ， 机 器 学 习 主 要 依靠 各 种 算法 来 实现 ， 比 如 : 神经 网 络 、 
SVM、 决 策 树 、 民 近邻 、K-Means、 回 归 算法 等 。 而 算法 是 对 特定 问题 求解 过 程 的 描述 ， 
是 为 解决 某 一 Ue eal 随 着 计算 机 科学 技术 的 发 展 ， 
在 计算 机 方面 已 有 了 广泛 的 发 展 及 应 用 。 算 ; 去 可 理解 为 计算 机 指令 的 有 限 序列 ， 每 条 指 
完成 一 -个 或 多 个 操作 ， 它 是 描述 计算 机 程序 行为 的 语言 ， 是 让 程序 变 得 最 为 简洁 所 思考 
ae 需要 投入 到 实际 运行 阶段 ， 这 个 阶段 需要 一 个 运行 平台 ， 这 就 是 
生产 环 















































ie, 生产 环境 主要 中 生产 现场 中 进行 制造 的 地 点 ， 包括 生产 工装 、 量 具 、 工 
艺 过 程 、 材 料 、 操 作者 、 PSEA REE 在 软件 工程 领域 界 , “生产 产 环境 "一 词 是 指 软件 
调试 完毕 并 正式 启用 后 实际 运行 的 环境 。 在 该 环境 下 ， 软件 系统 运行 的 目标 是 稳定 、 安 
可 靠 。 目前， 生产 环境 中 最 常用 的 是 Windows Server 和 Linux/UNIX 两 种 ， 考 虑 到 读者 
遍 比 较 熟悉 Windows 系 统 ， 本 章 将 重点 讲解 Linux 下 的 生产 环境 基础 。 
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4.1 Windows Server 2008 基 础 


























以 Windows Server 2008 作 为 生产 环境 ， 可 开发 、 提 供 和 管理 丰富 的 企业 级 应 用 程 
序 ， 充 分 利用 其 提供 的 高 度 安全 的 网 络 基础 架构 ， 提 高 和 增加 技术 的 效率 与 价值 。 








Windows Server 2008 建 立 在 网 络 和 虚拟 化 技术 之 上 ， 可 提高 基础 服务 器 设备 的 可 靠 性 和 灵 
活性 。 新 的 虚拟 化 工具 、 网 络 资源 和 增强 的 安全 性 等 均 可 降低 成 本 ， 为 动态 和 优化 的 数据 
中 心 提供 平 合 。 故 障 转移 集群 的 改进 可 简化 集群 ， 提 高 集群 的 稳定 性 并 使 得 它们 更 加 安 
全 人 
新 的 TCP/IP 协 议 栈 ， 称 为 下 一 代 TCP/IP 协 议 栈 。 下 一 代 TCP/IP 协 议 栈 完全 重新 设计 了 

a a re MERIDIAN UR «FF 不 同 的 
网 络 环境 和 技术 的 连通 性 和 性 能 需要 。 

















4.1.1 Windows Server 2008 R2 概 述 


Windows Server ”2008 是 专 为 强化 下 一 代 网 络 、 应 用 程序 和 Web 服 务 的 功能 而 设计 
的 ， 是 有 史 以 来 最 先进 的 Windows ”Server 操 作 系 统 。 与 Windows Server 2008 相 “ee 
yea Server 2008 R2 继 续 拓展 了 虚拟 化 、 系 统管 理 弹 性 、 Me 以 及 信息 
等 领域 的 应 用 。Windows Server 2008 R2 中 重要 的 新 功能 包含 : Hyper- 人 
apie, 作为 最 初 发 布 版 中 快速 迁移 功能 的 一 个 i -改进 ， Hyper-V% L a 
与 VMware 公司 的 ESX 或 其 他 管理 程序 IMEE, € per -V 功 能 的 ce 此 外 ， 它 还 强 
T PowerShell} SI MVEA S | AE ACA LL FEE 


a 与 可 用 性 更 完备 。 perV 20RD Live Merton 
JAER i EEEE E E MLinuxtil RA efi VM E Windows Server 2008 推 出 半年 
后 ， 微 软 就 推 [VI EEE Windows Server 2008 1 MHEIL Y frype v 10, PaA m 
有 FOOTIE OME. 但 是 相 比 于 其 他 虚拟 化 平台 却 薄弱 许多 ， 如 缺乏 动态 迁移 功能 ， 
比 无 法 在 不 停止 虚拟 主机 (VM) 的 情况 下 ， 将 VM 转移 到 其 他 实体 服务 器 上 。 目 前 
es Server 2008 R2 的 Hyper-V 2.0 上 开始 支持 ， 使 得 这 项 虚拟 化 平台 的 可 
WwW LY o 


-Active Directory Administrative Center: 可 离线 加 入 网 域 、AD 资 源 回收 简 (AD 可 强 
管理 接口 与 部 署 弹 性 ) 。Active Directory(AD) 在 Windows Server 操 作 条 统 中 从 来 都 是 举 

y 服务 器 角色 ， Windows Server 2008 R2 对 此 也 强化 了 不 少 功能 。 例 如 具有 新 的 AD 
理 接口 ， 同 时 还 能 使 用 PowerShell 指 令 操 作 ; 可 让 计算 机 离线 加 入 网 域 ， 并 有 AD 资 源 
AiE, 增加 了 AD 成 员 的 增删 弹性 。 


-Windows PowerShell 2.0 与 Server Core: Server Core 模 式 支 持 . NET, R2 改 善 了 Server 
Core 不 文 持 .NET Framework 且 不 能 使 用 PowerShell 的 缺点 。 现 在 在 指令 操作 为 主要 要 求 的 
Server Core 中 ， 可 以 搭配 PowerShell， 从 而 使 服务 器 管理 的 操 作 更 有 效率 。 Server 

装 选项 是 安装 Windows Server 2008 操 作 系 统 的 一 ene 的 选择 。Server Core 安 装 提 供 了 一 
最 小 的 运 和 环境 作为 特定 的 服务 器 角色 ， 降 低 了 服务 器 的 维护 管理 强度 ， tele a 
器 角色 色 被 黑客 攻击 的 可 能 性 。 


‘Remote Desktop Services: 可 提升 桌面 与 应 用 程序 的 虚拟 化 功能 。 在 新 版 的 RDS 中 ， 
也 增加 了 新 的 Remote Desktop Connection Broker (RDCB) 。 这 项 功能 可 整合 RDS 所 有 的 
eae’ 包含 实体 主机 和 VM。 


、 “DirectAcess: 可 提供 更 方便 、 更 安全 的 远程 联机 通道 。DirectAccess 让 VPN 通 道 的 建 
立 变 得 更 加 简便 ， 可 整合 多 种 验证 机 制 及 NAP， 有 助 于 提高 联机 过 程 中 的 安全 性 。 


.BranchCache: 可 加 1 A 利用 档案 快 取 的 方式 ， 可 以 就 
近 存 取 先 前 已 经 下 载 过 的 档案 ， 除 了 快 地 取得 分 享 数据 之 外 ， 也 能 减少 对 外 联机 频 帘 
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‘URL-based QoS: 企业 可 进一步 控 管 网 页 存 取 频 宽 。 企 业 可 以 针对 所 有 个 人 计算 机 
连接 特定 网 站 的 联机 定义 优先 权 ， 加 快 重要 网 页 的 存 取 速 度 。 


.BitLocker to Go: 置 加 密 。BitLocker to Go 加 密 随 身 矶 这 一 步 又 
S bee 使 用 者 身份 的 真实 性 ， 使 得 存储 装置 的 控 管 变 得 更 加 

















-AppLocke: 可 提高 个 人 端 应 用 程序 a 民 制 原则 的 加 
强 版 本 ， 际 了 具备 一 DHADE, 最 为 重要 的 是 T I 
息 ， 有 效 地 禁止 或 允许 应 用 程序 的 执行 ， 同 时 也 更 加 完善 了 其 自身 的 安全 性 能 。 
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4.1.2 Windows PowerShell 


Windows PowerShell 是 微软 公司 为 Windows 环 境 所 开发 的 壳 程 序 (Shell) 及 脚本 语言 
技术 ， 采用 的 是 命令 行 界面 。 这 项 全 新 的 技术 提供 了 丰富 的 控制 选项 与 自 a 
能 力 。Microsoft 推 出 Windows PowerShell 的 目的 是 : {Windows PowerShell 成 为 相当 
UNIX/Linux 统 的 命令 行 沉 程序 (如 sh、bash 或 csh) ， 同 时 还 可 内 置 脚 本 语言 发 情史 
星 序 Ha 


Windows PowerShell 以 .NET Framework 技 术 为 基础 ， 并 旦 与 现 有 的 WSH 保 持 癌 后 兼 
容 ， 因 此 它 的 脚本 程序 不 仅 能 访问 .NET CLR, ERRANA 的 COM 技 术 。 同 时 还 包含 了 
数 种 系统 管理 工具 ， 简 易 且 一 致 的 语法 ， 可 提升 管理 者 的 处 理 能 力 ， 常 见 的 如 登录 数据 
库 、WMI 等 。Windows PowerShell 具 有 以 下 优势 : 


:一致 性 的 设计 让 所 有 的 工具 和 系统 数据 的 使 用 语法 、 命 名 原则 都 相同 。 

-脚本 语言 简单 易学 ， 而 且 还 能 支持 现 有 的 脚本 程序 和 命令 行 工 具 。 
:内 含 129 种 被 称 为 cmdlet 的 标准 工具 ， 可 用 来 处 理 常 见 的 系统 管理 工作 。 

:具备 完整 的 可 扩展 性 ， 独 立 软 件 商 或 开发 者 都 能 很 容易 地 根据 需求 自行 扩充 。 

:进程 间 数 据 传 递 的 内 容 有 具有 强 类 型 特征 。 

以 下 示例 演示 了 Windows PowerShell 的 基本 使 用 方法 。 

获取 所 有 命令 : 




































































PS> Get-Command 








查看 Get-Command 命 令 的 用 法 : 





PS> Get-Help Get-Command 


停止 目前 正在 运行 的 以 'p' 字 符 开 头 来 命名 的 所 有 程序 : 








PS> get-process p* | stop-process 





停止 目前 正在 运行 的 使 用 大 于 1000MB 存 储 器 的 所 有 程序 : 





PS> get-process | where { $_.WS -gt 1000MB } | stop-process 





WERT Be PCA MEK: 
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PS> get-childitem | measure-object -property length -Sum 





等 待 一 个 名 为 “notepad” 的 程序 运行 退出 : 





PS> $processToWatch = get-process notepad 
PS> $processToWatch.WaitForExit() 





将 "hello，world!" 字 符 串 转 为 英文 大 写字 符 ， 使 其 变 成 "HELLO, WORLD!": 





PS> "hello, world!".ToUpper() 





在 字符 串 "string" 的 第 1 个 字符 后 插入 字符 串 "ABC"， 使 其 变 成 "sABCtring": 








PS> "string".Insert(1, "ABC") 





订阅 一 个 指定 的 RSS Feed 并 显示 它 最近 的 8 个 主题 : 





PS> $rssUrl = "http://blogs.msdn.com/powershell/rss.aspx 


PS> $blog = [xml](new-object System.Net.WebClient) .DownloadString($rssuUr1) 
PS> $blog.rss.channel.item | select title -first 8 





将 "$UserProfile" 设 置 成 数值 "UserProfile" 的 环境 变量 : 





PS> $UserProfile = $env:UserProfile 





提示 。 更 多 的 Windows PowerShell 资 料 可 查阅 如 下 网 址 : 
http://www.pstips.net/powershell-online-tutorials 


http://msdn.microsoft.com/en-us/library/dd835506(VS.85).aspx 
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4.2. _ Linux 基础 


a a a & 构 的 个 人 计算 机 的 一 个 自由 操作 系统 ， 目 前 Linux 
已 经 被 移植 到 更 多 的 计算 机 硬件 平台 上 ， 远 远 超出 其 他 的 任何 操作 系统 。Linux 发 行 版 一 
直 被 用 ene heey ees 并 且 已 经 在 该 领域 中 占据 了 重要 的 地 位 ， 世 界 上 
500 个 最 快 的 直 级 计算 机 90% 以 上 运行 的 均 是 Linax 发 行 版 或 其 变种 ， 包括 最 快 的 前 10 名 超 
级 计算 机 运行 的 都 是 基于 Linux 内 核 的 操作 系统 。 。 曾 经 是 世界 上 最 逮 大 的 超 
IBM 的 红 杉 (IBM Sequoia) ， 已 于 2011 年 交付 劳伦斯 利 福 摩尔 国家 实验 室 ， 并 于 2012 年 6 
月 开始 运作 ， 也 是 选择 Linux 作 为 操作 系统 : Linux 世 广泛 应 用 于 嵌入 式 系统 上 ， 如 手机 、 
平板 电脑 、 路 由 器 、 电 视 和 电子 游戏 机 等 。 广 泛 使 用 于 移动 设备 上 的 Android 操 作 系统 就 

是 创建 于 Linux 内 核 之 上 的 。4.2.1 节 将 以 常用 的 Linux 版 本 CentOS 为 例 ， 来 讲解 Linux 命 


今 。 


























4.2.1 Linux 命 令 


1.Linux 命 令 基 础 
Linux 命 令 eee a 行 管理 的 命令 。 Aes a Li 


内 
= 海运 行 的 核心， “BS a 前 DOS N SKi. Li TER 系统 中 有 两 种 类 型 
令 和 Linux 命 令 。 本 节 讲 解 Linux 命 令 ，Shell 命 令 将 在 4.2.2 节 讲解 。 


Linux 命 令 通常 具有 以 下 格式 : 



































2. 常 用 Linux 命 令 


以 下 是 系统 信息 与 系统 管理 中 常用 的 Linux 命 令 的 示例 : 








# arch 显示 机 器 的 处 理 器 架构 


# cal 2007 显示 
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2007 年 的 日 历 表 





# cat /proc/cpuinfo 


CPU info 的 信息 


# cat /proc/interrupts 


# cat /proc/meminfo 


# cat /proc/swaps 


Swap 被 使 用 


# cat /proc/version 


# cat /proc/net/dev 


# cat /proc/mounts 


# clock -w 


BIOS 


# date 


# lsusb -tv 


USB 设备 


# uname -m 


# uname -r 


# logout 


# reboot 


# shutdown -h now 


# shutdown -h 22:50 & 


显示 中 断 














校 验 内 存 使 














显示 内 核 的 版 本 











显示 网 络 适 配器 及 统计 


显示 已 加 载 的 文件 系统 


将 对 时 间 的 修改 保存 到 


显示 系统 日 期 


显示 机 器 的 处 理 器 架构 











显示 正在 使 用 的 内 核 版 本 











重启 


关闭 系统 


按 预 定时 间 
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CAE 














22:50 关 闭 系统 


# shutdown -c 取消 按 预定 时 间 关闭 系统 





TH 


# shutdown -r now 重 


以 下 是 文件 和 目录 管理 中 常用 的 Linux 命 令 : 





# cd /home 


\home H x 


# cp file1 file2 


# ls 


# mkdir dir 


dir H% 


# mv mydir new_mydir 


/移动 一 个 目录 


# pwd 


# rm -f file 


file 文 件 


# find / -name myfile 











'/， 开始 进入 根 文件 系统 搜索 





myfile 文 件 


# mount -0 loop myfile.iso /mnt/cdrom 


ISO 镜像 文件 


# df -h 


进入 


复制 一 个 文件 


查看 目录 中 的 文件 





创建 


重 命名 





显示 工作 路 径 


删除 





性 载 一 个 文件 或 








显示 已 经 挂 载 的 分 

















区 列表 
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# cat file1 从 第 一 个 字 节 开始 正 向 查看 文件 的 内 容 








以 下 是 用 户 与 用 户 组 管理 中 常用 的 Linux 命 令 







































































# groupadd [group] 创建 一 个 新 用 户 组 
# groupdel [group] 删除 一 个 用 户 组 
# passwd 修改 口令 

# passwd myuser 修改 用 户 的 口令 
# useradd myuser 创建 一 个 新 用 户 
# userdel myuser 删除 一 个 用 户 

# chgrp mygroup myfile 改变 文件 的 群 组 














3. 主 要 命令 解析 及 技巧 


ls 命令 将 指定 目录 的 文件 及 目录 输出 在 屏幕 中 。 示 例如 下 : 


$ 1s 
hadoop-2.4.1 hadoop-2.4.1-src.tar.gz hadoop-2.4.1.tar.gz numpy pypy-2.3.1-src 


CL 外 ， 通 过 加 上 “-la”* 参 数 可 表示 : 以 长 格式 的 形式 查看 当前 目录 下 的 所 有 文件 ， 包 
ranean tt eye tr: 含义 如 下 : 


.文件 属性 : drwxr-xr-x 

:文件 硬 链 接 数 或 目录 子 目 录 数 : 3《〈 一 个 空 目录 的 该 字段 是 2， 表 示 该 目录 下 有 两 个 
， 因 为 每 一 个 目录 都 有 一 不 指 向 它 EARNS te: ae 

‘IA: user 

.所 属 用 户 组 : group 

:文件 大 小 : 102 byte 

.修改 时 间 : Marl1 22:56 

:文件 名 : Filename 

下 例 演示 了 该 参数 的 用 法 : 
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$ ls -la ~ 总 用 量 








150484 

drwx------ . 6 myhaspl myhaspl 4096 9H 
10 16:55 . 

drwxr-xr-x. 3 root root 20 9 月 
10 08:23 .. 

-rw------- . 1 myhaspl myhaspl 220 9H 


10 17:59 .bash_history 
drwxr-xr-x. 9 myhaspl myhaspl 4096 6H 


21 14:38 hadoop-2.4.1 
-rw-r--r--. 1 myhaspl myhaspl 15417097 6H 


21 14:42 hadoop-2.4.1-srce.tar.gz 
-rw-r--r--. 1 myhaspl myhaspl 138656756 6 月 


21 14:42 hadoop-2.4.1.tar.gz 
drwxr-xr-x. 8 myhaspl myhaspl 4096 9H 


10 17:02 numpy 
drwxr----- . 3 myhaspl myhaspl 18 9 月 


10 16:21 .pki 
drwxrwxr-x. 14 root root 4096 9H 





10 16:25 pypy-2.3.1-src 





(2) cd 命令 及 多 条 命令 同行 


cd 命令 的 功能 是 切换 当前 目录 ， 示 例如 下 : 








$cd .. 
$cd /home/ 
$cd /opt 








此 外 ， 还 可 以 将 多 个 命令 写 在 同一 行 ， 一 次 使 用 ， 用 分 号 陋 开 ， 比 如 : 

















$ ls -la ;cd numpy;lsš H 








150484 

drwx------ . 6 myhaspl myhaspl 4096 9H 
10 16:55 . 

drwxr-xr-x. 3 root root 20 9H 
10 08:23 .. 

-rw------- . 1 myhaspl myhaspl 220 9H 
10 17:59 .bash_history 

drwxr-xr-x. 9 myhaspl myhaspl 4096 6H 


21 14:38 hadoop-2.4.1 
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-rw-r--r--. 1 myhaspl myhaspl 15417097 6 月 


21 14:42 hadoop-2.4.1-src.tar.gz 
-rw-r--r--. 1 myhaspl myhaspl 138656756 6 月 


21 14:42 hadoop-2.4.1.tar.gz 
drwxr-xr-x. 8 myhaspl myhaspl 4096 9 月 


10 17:02 numpy 
drwxr----- . 3 myhaspl myhaspl 18 9 月 


10 16:21 .pki 
drwxrwxr-x. 14 root root 4096 9H 





10 16:25 pypy-2.3.1-src 


BENTO_BUILD.txt build INSTALL.txt pavement.py setupegg.py 
THANKS. txt 

bento.info COMPATIBILITY LICENSE.txt README.txt setup.py tools 

branding DEV_README.txt MANIFEST.in release.sh site.cfg.example tox.ini 

bscript doc numpy runtests.py TEST_COMMIT 

$ 








如 上 面 的 结果 所 示 ， 首 先 ， 先 执行 第 1 条 ls 命令， 和 输出 当前 目录 下 的 文件 列表 ， 然 
执行 第 2 条 cd 命令 ， 进入 numpy 目 录 后 ， 执 行 第 3 条 ls 命令 ， a ST 
个 。 
(3) 命令 后 台 执 行 
可 以 让 进程 在 后 台 运 行 ， 执 行 命令 后 立即 返回 ，i cue 以 继续 执行 其 他 命令 ， 只 


























要 在 会 信行 的 最 后 让 上 "着 可 。 下 面 的 水 例 是 查找 全 字符 串 “doc” 的 文件 ， 因 查找 过 程 
比较 漫长 ， 故而 直接 在 后 台 执 行 并 返回 ， 如 下 所 示 : 

$ find ~ -name doc & 

[1] 5453 


$ /home/myhaspl/hadoop-2.4.1/share/doc 
/home/myhaspl/pypy-2.3.1-src/site-packages/numpy/doc 
/home/myhasp1l/pypy-2.3.1-src/ctypes_configure/doc 
/home/myhasp1/pypy-2.3.1-src/pypy/doc 
/home/myhasp1/numpy/doc 
/home/myhaspl/numpy/build/1ib. linux -x86_64-2.7/numpy/doc 
/home/myhasp1/numpy/numpy/doc 
/home/myhasp1/numpy/numpy/numpy/doc 
/home/myhasp1/numpy/numpy/numpy/f2py/doc 





(4) 重 定向 与 管道 


重 定向 是 指 对 原来 系统 命令 的 默认 执行 方式 进行 改变 ， 比 如 将 原本 在 显示 器 中 的 输 
出 改 为 输出 到 某 一 文件 中 。 常 用 的 重 定向 命令 如 下 所 示 “〈cmd 表 示 命 令 ，fe 表 示 文 件 或 


设备 ) : 
cmd>file 把 stdout 重 定向 到 各 e 文 件 中 。 
cmd>>file 把 stdout 重 定向 到 file 文 件 中 〈 仍 加) 。 
cmd 1>file 把 stdout 重 定向 到 file 文 件 中 。 
cmd>file 2>&1 把 stdout 和 stderr 一 起 重 定向 到 名 e 文 件 中 。 
cmd 2>file 把 stderr 重 定向 到 fle 文 件 中 。 
cmd 2>>file 把 stderr 重 定向 到 file 文 件 中 GEN) 。 
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下 面 以 实例 来 讲解 主要 的 重 定向 操作 。 首 先 来 讲解 重 定 向 操作 符 “>”， 下 面 的 例子 演 
不 了 先 使 用 find 命 令 来 合 找 含有 “doc” 的 文件 ， 然 后 使 用 “>” 将 结案 列 表 重 定 同 到 SS 











$ find ~ -name doc >mydoclist & 
[1] 5461 
$ 1s 
hadoop-2.4.1 hadoop-2.4.1.tar.gz numpy 
hadoop-2.4.1-src.tar.gz mydoclist pypy-2.3.1-src 
[1]+ ER 

find ~ -name doc > mydoclist 


$ cat mydoclist 

/home/myhaspl/hadoop-2.4.1/share/doc 
/home/myhaspl/pypy-2.3.1-src/site-packages/numpy/doc 
/home/myhaspl/pypy-2.3.1-src/ctypes_configure/doc 
/home/myhaspl/pypy-2.3.1-src/pypy/doc 
/home/myhaspl/numpy/doc 
/home/myhaspl/numpy/build/lib.linux-x86_64-2.7/numpy/doc 
/home/myhaspl/numpy/numpy/doc 
/home/myhaspl/numpy/numpy/numpy/doc 
/home/myhaspl/numpy/numpy/numpy/f2py/doc 
/home/myhaspl/numpy/numpy/build/lib.linux-x86_64-2.7/numpy/doc 
$ 





接 下 来 讲解 重 定向 操作 符 “>>”， 下 面 的 例子 先 使 用 find 命 令 查找 文件 ， 然 后 使 
用 “>>” 将 查找 结果 重 定 向 到 文件 mydoclist 中 : 











$ find ~ -name hadoop >>mydoclist & 

[1] 5466 

$ cat mydoclist 

/home/myhaspl/hadoop-2.4.1/share/doc 
/home/myhaspl/pypy-2.3.1-src/site-packages/numpy/doc 
/home/myhasp1l/pypy-2.3.1-src/ctypes_configure/doc 
/home/myhasp1/pypy-2.3.1-src/pypy/doc 

/home/myhasp1/numpy/doc 
/home/myhaspl/numpy/build/1ib.1linux-x86_64-2.7/numpy/doc 
/home/myhasp1/numpy/numpy/doc 

/home/myhasp1/numpy/numpy/numpy/doc 
/home/myhasp1/numpy/numpy/numpy/f2py/doc 
/home/myhaspl1/numpy/numpy/build/lib.linux-x86_64-2.7/numpy/doc 
/home/myhaspl/hadoop-2.4.1/bin/hadoop 

/home/myhaspl/hadoop-2.4.1/etc/hadoop 
/home/myhaspl1/hadoop-2.4.1/share/hadoop 
/home/myhasp1l/hadoop-2.4.1/share/hadoop/httpfs/tomcat/webapps/webhdfs/WEB- 
INF/classes/org/apache/hadoop 
/home/myhaspl/hadoop-2.4.1/share/hadoop/httpfs/tomcat/webapps/webhdfs/WEB- 
INF/classes/org/apache/hadoop/1lib/service/hadoop 
/home/myhaspl/hadoop-2.4.1/share/doc/hadoop 
/home/myhaspl/hadoop-2.4.1/share/doc/hadoop/api/src-html/org/apache/hadoop 
/home/myhaspl/hadoop-2.4.1/share/doc/hadoop/api/org/apache/hadoop 
/home/myhaspl/hadoop-2.4.1/share/doc/hadoop/api/org/apache/hadoop/lib/service/hadoop 
/home/myhaspl/hadoop-2.4.1/share/doc/hadoop/hadoop -hdfs-httpfs/apidocs/src- 
htm1/org/apache/hadoop 
/home/myhaspl/hadoop-2.4.1/share/doc/hadoop/hadoop-hdfs-httpfs/apidocs/src- 
html/org/apache/hadoop/1lib/service/hadoop 
/home/myhaspl/hadoop-2.4.1/share/doc/hadoop/hadoop-hdfs-httpfs/apidocs/org/apache/hadoop 
/home/myhaspl/hadoop-2.4.1/share/doc/hadoop/hadoop-hdfs - 
httpfs/apidocs/org/apache/hadoop/1lib/service/hadoop 





再 接 下 来 ， 看 一 个 IO 重 定向 的 例子 。 在 Linux 系 统 中 ， EA an le 
AN 标准 输出 (stdout〉 的 文件 描述 符 为 1， 标 准 错误 输出 (stderr〉 的 文件 描述 符 为 


Ss 





























标准 输出 重 定 疝 命令 格式 如 下 所 示 : 








1>filenamex 
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1>>filename 








下 例 演示 了 IO 重 定向 的 使 用 方法 ， 将 标准 输出 重 定向 到 文件 abc 中 : 





$ echo "aaa" 1> abc 
$ cat abc 

aaa 

$ echo "aaa" 1>> abc 
$ cat abc 

aaa 

aaa 

$ 





标准 错误 输出 重 定 向 命令 格式 如 下 所 示 : 





2>filename 或 


2>>filename 








下 例 演示 了 如 何 将 标准 错误 输出 重 定 同 到 文件 error.log 中 : 





$ rm /root/* 2>error.log 
$ cat error.log 
rm: 无 法 删除 


"/root/*": 权限 不 够 


$ 














spp hee RATE SP SCE A RN 
”最 后 ， 讲 解 tee 命 令 与 管道 操作 符 “P 的 合并 使 用 ， 实 现在 输出 的 同时 ， 再 输出 一 份 同 
样 的 内 容 给 管道 。 下 例 演示 了 如 何 列 出 目录 的 内 容 并 输出 给 mylist 文 件 : 














$ ls |tee mylist 
hadoop-2.4.1 
hadoop-2.4.1-src.tar.gz 
hadoop-2.4.1.tar.gz 
mydoclist 

numpy 

pypy-2.3.1-srec 

$ cat mylist 
hadoop-2.4.1 
hadoop-2.4.1-srce.tar.gz 
hadoop-2.4.1.tar.gz 
mydoclist 

numpy 

pypy-2.3.1-sre 

$ 


Q jem ”管道 是 Linux 中 很 重要 的 一 种 通信 方式 ， 是 将 一 个 程序 的 输出 直接 连 
接 到 另 一 个 程序 的 输入 。 


(5) 通配符 
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在 文件 管理 等 操作 中 ， 可 以 使 用 通配符 ， 最 常用 的 通配符 如 下 : 
多 个 字符 
人 
此 外 ， 还 可 以 使 用 “~” 来 表示 当前 用 户 的 主 目录 。 
下 例 演示 cei 使 用 ls 命令 加 通配符 的 模式 列 出 指定 目录 “~numpy/ 的 内 容 














$ ls ~/numpy/*.py 

/home/myhaspl/numpy/pavement.py /home/myhaspl/numpy/setupegg.py 
/home/myhaspl/numpy/runtests.py /home/myhaspl/numpy/setup. py 

$ ls ~/numpy/*.txt 

/home/myhaspl/numpy/BENTO_BUILD.txt /home/myhaspl/numpy/LICENSE. txt 
/home/myhasp1/numpy/DEV_README. txt /home/myhasp1/numpy/README. txt 
/home/myhaspl1/numpy/INSTALL. txt /home/myhasp1/numpy/THANKS. txt 
$ ls ~/numpy/setup* 

/home/myhaspl/numpy/setupegg.py /home/myhaspl/numpy/setup. py 

$ ls ~/numpy/setup.?? 

/home/myhaspl/numpy/setup. py 

$ 








(6) 作业 管理 


可 以 使 用 jobs 命 令 显示 当前 作业 ，grep 命 令 是 一 种 强大 的 文本 搜索 工具 ， 它 能 使 用 正 
则 表达 式 搜索 文本 。 下 例 将 这 二 者 结合 Be, 输出 文件 列表 中 包括 字符 串 "se" 的 文件 名 ， 
并 将 输出 结果 放 到 myse 文 件 中 : 











$ find ~ -name "*.py"|grep se >myse & 
[1] 2258 

$ jobs 
[1]+ 运行 中 





find ~ -name "*.py" | grep se > myse & 
$ jobs 
[1]+ 完成 


find ~ -name "*.py" | grep se > myse 
$ cat myse 
/home/myhaspl/pypy-2.3.1-src/dotviewer/graphparse.py 
/home/myhaspl/pypy-2.3.1-src/dotviewer/graphserver.py 








下 例 演 示 了 使 用 k 记 命令 来 停止 作业 ， DAN 后 面 的 时 间 参 数 可 
以 是 s ( 秒 ) 、h CM) 、m (分 钟 ) 或 d ( 日 数 ) 





$ (find ~ -name "*.?y"|grep se >myse;sleep 10s )& 
[1] 2365 

$ jobs 
[1]+ 运行 中 





( find ~ -name "*.?y" | grep --color=auto se > myse; sleep 10s ) & 
$ kill %1 
$ jobs 
tale 已 终止 
( find ~ -name "*.?y" | grep --color=auto se > myse; sleep 10s ) 
$ 





(7) 查询 命令 使 用 方式 
可 以 使 用 man 命 令 行 的 方式 来 得 询 命令 帮助 ， 下 面 演 示 了 碍 询 1ls 命 令 的 帮助 信息 ; 
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man 1s 





























HX: 
~ 表示 当前 用 户 的 主 目录 。 
.表示 当前 目录 。 
… 表 示 上 级 目录 。 
(8) 链接 文件 
”在 Linux 中 ， 
文件 系统 中 ， 创 建 硬 链接 。 下 例 滋 
$ ls -la 总 用 量 
151228 
drwx------ 6 myhaspl myhaspl 4096 
18 08:55 . 
drwxr-xr-x. 3 root root 20 
10 08:23 .. 
-rw------- 1 myhaspl myhaspl 1915 
16 18:05 .bash_history 
drwxr-xr-x. 9 myhaspl myhaspl 4096 


21 14:38 


-rw-r--r--， 


21 14:42 


-rw-r--r--， 


21 14:42 


-rw-r--r--， 


16 10:53 


-rw-rw-r--， 


16 17:25 


-rw-rw-r--， 


18 08:55 


-rw-rw-r--， 


16 18:02 


drwxr-xr-x. 


16 10:39 


10 16:21 


drwxrwxr-x. 


hadoop-2.4.1 
1 myhaspl myhaspl 15417097 


hadoop-2.4.1-src.tar.gz 
1 myhaspl myhaspl 138656756 


hadoop-2.4.1.tar.gz 

1 myhaspl myhaspl 1454 
mydoclist 

1 myhaspl myhaspl 88 
mylist 

1 myhaspl myhaspl 357304 
mypylist 

1 myhaspl myhaspl 31954 
myse 

8 myhaspl myhaspl 4096 
numpy 

3 myhaspl myhaspl 18 
.pki 

14 root root 4096 
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9 月 


9 月 


9 月 























可 用 不 同 的 文件 名 引用 同一 个 数据 或 程序 ， 大 
示 了 硬 链 接 的 使 用 方法 ; 


mére 




















称 为 硬 链接 ， 可 在 同一 物理 


10 16:25 pypy-2.3.1-src 
-rw-rw-r--. 1 myhaspl myhaspl 


16 17:57 se 
$ ln mypylist mypylist1 
$ ls -la 总 用 量 


151580 

drwx------ . 6 myhaspl myhaspl 
18 08:56 . 

drwxr-xr-x. 3 root root 
10 08:23 .. 

-rW------- . 1 myhaspl myhaspl 


16 18:05 .bash_history 
drwxr-xr-x. 9 myhaspl myhaspl 


21 14:38 hadoop-2.4.1 
-rw-r--r--. 1 myhaspl myhaspl 


357304 


4096 


20 


1915 


4096 


15417097 


21 14:42 hadoop-2.4.1-src.tar.gz 


-rw-r--r--. 1 myhaspl myhaspl 


21 14:42 hadoop-2.4.1.tar.gz 
-rw-r--r--. 1 myhaspl myhaspl 


16 10:53 mydoclist 
-rw-rw-r--. 1 myhaspl myhaspl 


16 17:25 mylist 
-rw-rw-r--. 2 myhaspl myhaspl 


18 08:55 mypylist 
-rw-rw-r--. 2 myhaspl myhaspl 


18 08:55 mypylist1 
-rw-rw-r--. 1 myhaspl myhaspl 


16 18:02 myse 
drwxr-xr-x. 8 myhaspl myhaspl 


16 10:39 numpy 
drwxr----- . 3 myhaspl myhaspl 


10 16:21 .pki 
drwxrwxr-x. 14 root root 


10 16:25 pypy-2.3.1-src 
-rw-rw-r--. 1 myhaspl myhaspl 


16 17:57 se 
$ ln mypylist mypylist2 
$ ls -la 总 用 量 


151932 
drwx------ . 6 myhaspl myhaspl 


138656756 


1454 


88 


357304 


357304 


31954 


4096 


18 


4096 


357304 


4096 
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9 月 


9 月 


9 月 


9 月 


6 月 


6 月 


6 月 


9 月 


9 月 


9 月 


9 月 


9 月 


9 月 


9 月 


9 月 





9 月 


9 月 























mére 














18 09:27 . 


drwxr-xr-x. 


3 root 


10 08:23 .. 


16 18:05 


drwxr-xr-x. 


1 myhaspl 


.bash_histo 
9 myhaspl 


root 


myhaspl 


ry 
myhaspl 


20 


1915 


4096 


9 月 











21 14:38 hadoop-2.4.1 

-rw-r--r--. 1 myhaspl myhaspl 15417097 6H 
21 14:42 hadoop-2.4.1-srce.tar.gz 

-rw-r--r--. 1 myhaspl myhaspl 138656756 6 月 
21 14:42 hadoop-2.4.1.tar.gz 

-rw-r--r--. 1 myhaspl myhaspl 1454 9 月 
16 10:53 mydoclist 

-rw-rw-r--. 1 myhaspl myhaspl 88 9 月 
16 17:25 mylist 

-rw-rw-r--. 3 myhaspl myhaspl 357304 9H 
18 08:55 mypylist 

-rw-rw-r--. 3 myhaspl myhaspl 357304 9H 
18 08:55 mypylist1 

-rw-rw-r--. 3 myhaspl myhaspl 357304 9H 
18 08:55 mypylist2 

-rw-rw-r--. 1 myhaspl myhaspl 31954 9 月 
16 18:02 myse 

drwxr-xr-x. 8 myhaspl myhaspl 4096 9H 
16 10:39 numpy 

drwxr----- 3 myhaspl myhaspl 18 9 月 
10 16:21 .pki 

drwxrwxr-x. 14 root root 4096 9 月 
10 16:25 pypy-2.3.1-src 

-rw-rw-r--. 1 myhaspl myhaspl 357304 9H 
16 17:57 se 

。 y Wir E. SA 
从 几 条 命令 的 执行 结果 可 以 看 到 : mypylist 的 硬 链接 数量 在 增加 。 


在 Linux 下 也 可 以 创建 软 链接 ， 这 种 链接 跨越 了 不 同 的 物理 文件 系统 ， 也 条 
它 是 一 个 单独 的 文件 ， 存 放 着 目标 文件 的 路 径 名 。 下 例 演示 





$ 1n 
$ 1ls -la 总 














151932 





接 文件 ， 与 硬 链接 不 同 的 是 ， 
了 软 链接 的 使 用 方式 : 


6 myhaspl 


-S 人 mypylists 


myhaspl 


4096 9 月 
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mére 

















18 09:35 . 


drwxr-xr-x. 


3 root root 20 


10 08:23 . 


16 18:05 


drwxr-xr-x. 


21 14:38 


-rw-r--r--， 


21 14:42 


-rw-r--r--， 


21 14:42 


-rw-r--r--， 


16 10:53 


-rw-rw-r--， 


16 17:25 


-rw-rw-r--， 


18 08:55 


-rw-rw-r--， 


18 08:55 


-rw-rw-r--， 


18 08:55 


lrwxrwxrwx. 


18 09:35 


. 1 myhaspl myhaspl 1915 


.bash_history 
9 myhaspl myhaspl 4096 


hadoop-2.4.1 
1 myhaspl myhaspl 15417097 


hadoop-2.4.1-src.tar.gz 
1 myhaspl myhaspl 138656756 


hadoop-2.4.1.tar.gz 

1 myhaspl myhaspl 1454 
mydoclist 

1 myhaspl myhaspl 88 
mylist 


3 myhaspl myhaspl 357304 


mypylist 
3 myhaspl myhaspl 357304 


mypylist1 
3 myhaspl myhaspl 357304 


mypylist2 
1 myhaspl myhaspl 8 


mypylists -> mypylist 


(9) 文件 权限 
对 于 一 般 的 Linux 文 件 而 言 ， 权 限 如 下 所 示 : 
Tr 允许 读 文件 内 容 。 

w: 人 允许 修改 文件 内 容 。 

x: 人 允许 执行 该 文件 。 

对 于 Linux 目 录 而 言 ， 权 限 如 下 所 示 : 


tT: 允许 列 出 该 目录 下 的 文件 和 子 目 录 。 


9 月 


9 月 





9 月 








w: 人 允许 生成 和 删除 该 目录 下 的 文件 。 
x: 人 允许 访问 该 目录 。 

u: 代表 所 有 者 Cuser) 。 
g: 代表 所 有 者 所 在 的 组 群 (group)。 


0: 代表 其 他 人 ， 但 不 是 u 和 g (other) 。 
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此 外 ， 还 可 以 通过 chmod 命 令 来 改变 权限 。 该 命令 的 格式 如 下 所 示 : 


chmod [用 户 类 型 





] (+/- ) 访 问 权限 的 格式 文件 或 目录 名 








下 例 演 示 了 如 何 改 变 权限 ， 将 mytext 设 置 为 所 有 的 人 可 写 为 : 





chmod a+w mytext 





下 例 演示 了 文件 myrun 的 生成 、 权 限 的 授予 及 最 后 执行 的 过 程 : 





$ echo "ls;echo \"ok\"" >myrun 
$ cat myrun 

ls;echo "ok" 

$ chmod +x ./myrun 


$ ./myrun 

abc hadoop-2.4.1 mydoclist mypylist1 myrun pypy-2.3.1-src 
abd hadoop-2.4.1-srce.tar.gz mylist mypylist2 myse se 

error.log hadoop-2.4.1.tar.gz mypylist mypylists numpy 

ok 





T 


(10) 进程 管理 


T i 通过 kill 命 
下 (pid 为 进程 号 ) 





了 


> 


杀 死 进程 ，kil 命 令 终 止 进程 的 调用 格式 如 





kill -9 pid 








人 首先 ， 执 行 ls 命令 后 开始 休眠 ， 整 个 过 程 处 
人 通过 ps 命令 得 找 该 进程 的 PID 号 ， 最 所用 killf 命令 终 
1% Eo 





NT 





$ ls;sleep 20& 

$ ps -a 
PID TTY TIME CMD 
2245 pts/0 00:00:00 sleep 
2246 pts/0 00:00:00 ps 


$ ps -ef 

UID PID PPID C STIME TTY TIME CMD 

root 1 0 © 16:07 ? 00:00:01 /usr/lib/systemd/systemd 
--switched-root - 

root 2 0 © 16:07 ? 00:00:00 [kthreadd] 

root 3 2 © 16:07 ? 00:00:00 [ksoftirqd/0] 

root 5 2 016:07 ? 00:00:00 [kworker/0:0H] 

root 6 2 © 16:07 ? 00:00:00 [kworker/u2:0]...... 
myhaspl 2245 2176 © 17:04 pts/0 00:00:00 sleep 20 

myhaspl 2247 2176 © 17:04 pts/0 00:00:00 ps — 


ef 
$ kill -9 2287 
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myhaspl 2289 2261 © 17:11 pts/1 00:00:00 ps -ef 
[1]+ GA 


sleep 20 





(11) 用 户 管理 
下 例 演示 了 通过 useradd 命 令 、userdel 命 令 进 行 








+ 


首 加 或 删除 用 户 的 操作 : 





# useradd -m test1 
# 1s /home/ 
myhaspl test1 

# SU test1 

$ su 

# userdel test1 





(12) 磁盘 空间 管理 
下 例 演示 了 通过 df 命令 来 查看 空间 的 使 用 情况 : 


# df 文件 系统 











1K- 块 
































% HERA 





/dev/mapper/centos-root 7022592 2545964 4476628 37% / 


devtmpfs 632192 © 632192 0% /dev 

tmpfs 638148 © 638148 0% /dev/shm 

tmpfs 638148 8320 629828 2% /run 

tmpfs 638148 9 638148 0% /sys/fs/cgroup 
/dev/sdal 508588 126640 381948 25% /boot 

# 





下 例 演示 了 通过 du 命令 来 查看 茶 个 目录 或 文件 的 占用 空间 : 








du -h myrun 
.OK myrun 
du -h numpy 
.OK numpy/ .git/refs/heads 
numpy/ .git/refs/tags 
.OK numpy/ .git/refs/remotes/origin 
.OK numpy/ .git/refs/remotes 
.OK numpy/ .git/refs 
numpy/ .git/branches 
44K numpy/ .git/hooks 
4.0K numpy/ .git/info 
28M numpy/ .git/objects/pack 


加 0 上 上 口上 妇 上 二 





4.2.2 Shell 基础 
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Shell 是 Linux 系 统 的 用 户 界 面 ， 为 用 户 与 内 核 进 行 交 互 操作 提供 的 一 种 接口 。 它 接收 
输入 的 命令 并 把 它 送 入 内 核 执行 。 实 际 上 Shell 是 一 个 命令 解释 器 ， 它 解释 用 户 输入 
令 并 且 把 它们 送 到 内 核 中 。 不 仅 如 此 ， Shell 还 有 自己 的 编程 语言 ， 用 于 对 命 pO vey 
允许 用 户 编写 由 Shell 命 令 组 成 的 时 序 。 Shell 编 程 语言 具有 普 车 通 编 程 语言 的 很 多 
Ae e EET 吉 构 等 ， 用 这 种 编程 语言 编写 的 Shell 程 序 与 其 他 
程序 具有 同样 的 效果 。 


# V7 AUIS 47 Shell C+ 


什么 是 Shell 程 序 呢 ?简单 地 说 Shell 程 序 就 是 一 个 包含 若干 行 Shell 或 Linux 命 令 的 文 
件 。 下 面 以 实例 来 说 明 如 何 建立 并 运行 Shell 文 件 。 


首先 编辑 如 下 Shell 文 件 test1.sh， 并 将 扩展 名 命名 为 ".sh": 


#!/bin/sh 
ls -la 

cd numpy 
ls 


m 














7 
É 
比 





 Rarat ota 
2 = aye 























然后 ， 对 Shell 文 件 进行 权限 授权 ， 如 下 所 示 : 





$ chmod a+rx test1.sh 





最 后 运行 该 Shell 文 件 ， 如 下 所 示 : 





$ ./testi.sh 





2.Shell 的 命令 行 参数 


1) 读 取 茶 个 命令 行 参 数 。 可 使 用 $0 到 $n 表示 对 第 0 到 第 n 个 参数 进行 操作 。 下 面 演 示 
了 依次 输出 程序 的 个 信 行 参数 : 





$ cat test1.sh 
#!/bin/sh 

echo "$0 " 

echo "$1 " 

echo "$2 " 

$ ./testi.sh abc 
./testi.sh 

a 


b 





2) 弹出 所 有 命令 行 参数 。shift 从 命令 行 参 数 中 弹出 第 1 个 参数 ，until 开 始 循环 ， 如 下 
ZN: 





$ cat test1.sh 
#!/bin/sh 
until [ -z "$1" ] 


./testi.shabcde f 
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3) 使 用 $* 和 $@ 表 示 所 有 参数 。 下 例 演示 了 通过 for 循 环 依次 读 取 命令 行 参 数列 表 中 
的 元 素 并 输出 : 





$ cat test1.sh 

#!/bin/sh 

index=1 

for myarg in $* 

do 
echo "NO#$index=$myarg" 
let "index+=1" 

done 

$ ./testi.sh abcde f 

NO#1=a 

NO#2=b 

NO#3=c 

NO#4=d 

NO#5=e 

NO#6=f 





3.Shell 4 & 


1) 读 写 变量 。 可 以 通过 在 变量 名 的 前 面 加 “$”* 取 变量 的 值 或 以 “${ 变 量 名 }” 的 方式 对 
变量 进行 操作 。 
下 面 例子 首先 定义 了 a、b 两 个 变量 ， 然 后 将 a 变量 的 值 赋值 给 b 变 量 ， 最 后 输出 b 变 




















$ cat test1.sh 
#!/bin/sh 

a=12 

b=$a 

echo $b 

$ ./testi.sh 
12 

$ 











Sa OD 0 


取 变 量 值 : 





$ cat test1.sh 
#!/bin/sh 

a=12 

b=a 

echo ${!b} 

$ ./testi.sh 
12 

$ 


4. 条 件 表达 式 


1) 下面 的 例子 演示 了 如 何 通 过 “if...then..else..fi” 的 方式 来 完成 条 件 选 择 ， 如 果 a>b， 
则 输出 GT， 否 则 输出 LT: 














$ cat test1.sh 
#!/bin/sh 

a=1 

b=2 

if [ $a -gt $b ] 
then 


fi 
$ ./testi.sh 
LT 
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$ 











2) 下 面 的 例子 演 示 了 如 何 通过 "if...then..elif.. .then...else..fi” 的 方式 来 完成 条 件 选 
择 ， 如 果 a>b， 则 输出 GT， 如 果 a==b 则 输出 eq， 否则 输出 LT: 





$ cat test1.sh 
#!/bin/sh 
a=2 
b=2 
if [ $a -gt $b ] 
then 

echo "GT" 
elif [ $a -eq $b ] 
then 


fi 
$ ./testi.sh 
eq 
$ 











3) KEETE T LA ase .in...esac...” 语 句 来 完成 条 件 选 择 ， 程 序 输出 菜 
单 后 ， 用 户 选择 适合 的 菜单 项 ， 然 后 通过 case 系 列 语句 读 取 用 户 的 选择 并 输出 : 





$ cat test1.sh 

#!/bin/sh 

echo "=====================" 
echo "1.a" 

echo "2.b" 

echo "3.c" 

read mychoice 

case $mychoice in 





5. 循 环 
(1) for 循 环 


下 例 演示 了 如 何 通过 “for...in...do...done” 的 语句 来 完成 循环 的 操作 :程序 首先 执行 ]s 
， 读 取 当 前 目录 下 的 文件 列表 ， 然 后 使 用 for 语 句 逐 个 读 取 文件 列表 并 输出 文件 名 。 








命 


“> 





$ cat testi.sh 
#!/bin/sh 
for filename in 'ls' 
do 

echo $filename 
done 
$ ./testi.sh 
ali 


abc 

abd 

error.log 

hadoop-2.4.1 
hadoop-2.4.1-src.tar.gz 
hadoop-2.4.1.tar.gz 
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hello 











mydoclist 
合演 未 了 如 侣 到 出 非 且 孙 性 质 的 文件 向 操作 程序 首先 执行 ls 命令 ， 读 取 当 前 目录 
下 的 文件 列表 ， 然 后 使 用 for 语 句 逐 个 让 AROPE, 对 列表 中 的 每 个 文件 使 用 “-f» 进 行 检 
测 ， 如 果 是 文件 ， 则 输出 文件 名 ， 否则 中 过 不 处 bH. 
$ cat test1.sh 
#!/bin/sh 
for filename in 'ls' 
= if [ -f $filename ] 
then 
echo $filename 
fi 
done 
$ ./testi.sh 
1 
abc 
abd 
error.log 


hadoop-2.4.1-srce.tar.gz 
hadoop-2.4.1.tar.gz 
hello 

mydoclist 


test1.sh 
$ 





(2) while 循 环 


下 例 演示 了 while 循 环 的 操作 ， 程 序 通 
并 输出 : 


过 while 循 环 来 完成 将 变量 a 的 值 由 1 递 + 





曾 到 9， 





$ cat test1.sh 
#!/bin/sh 
a=1 
while [ $a -lt 10 ] 
do 
echo $a 
a='expr $a + 1' 
done 
$ ./testi.sh 


FOMDNDUBRWNE 








P PRR J 如 们 使 用 while 循 环 来 显示 所 有 的 偶数 ， 其 中 ， 





表示 恒 为 真 的 意思 : 


将 条 件 设 为 “或 


true”, 





$ cat testi.sh 
#!/bin/sh 

a=0 

while : 
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do 


let "a=$a + 1" 
if [ $a -gt 20 ] 
then 
break 
fi 
if [ $(($a%2)) -eq 1 ] 
then 


continue 








下 例 演 示 了 如 何 使 用 while 循 环 来 实现 重 定向 MO 的 功能 ; 


$c 
#!/ 
whi 
do 


don 
$c 
zha 
lis 
liu 
$. 
zha 
20 

lis 
18 


at test1.sh 
bin/sh 
le read name age 


echo $name 
echo $age 
e<student.txt 
at student.txt 
ngsan 20 

i 18 

mi 19 
/test1.sh 
ngsan 


i 


liumi 


19 
$ 


(3) until 循 环 





下 例 演示 了 如 何 通过 unti 


$c 
#!/ 
a=1 
unt 
do 


don 
$. 


FAFROANDUBWNE 


at testi.sh 
bin/sh 


il [ $a -gt 10 ] 


echo $a 
a='expr $a + 1' 
e 

/testi.sh 











1 循环 来 完成 变量 a 的 递增 ， 并 在 满足 条 件 (a>10) 后 退出 : 
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mére 























下 例 演 示 了 如 何 通过 until 循 环 来 进行 重 定 向 : 





$ cat test1.sh 


#!/bin/sh 
until ! read name age 
do 


echo $name 

echo $age 
done<student.txt 
$ ./testi.sh 





6.select3< % 


select 使 用 PS3 环 境 变量 的 值 作 为 提示 符 ， 下 例 演示 了 如 何 使 用 select 来 实现 类 似 菜 单 
的 功能 ， 用 户 在 年 龄 为 “<18”、“<28” 和 <“60” 之 间 选 择 : 








$ cat test1.sh 
#!/bin/sh 
PS3="choice:" 
echo 
select age in "<18" "<28" "<60" 
do 
echo 
echo "age is $age" 
break 
done 
exit 0 
$ ./testi.sh 
1) <18 
2) <28 
3) <60 
choice:2 
age is <28 





unt 的 重 定向 示例 如 下 : 





$ cat test1.sh 


#!/bin/sh 
until ! read name age 
do 


echo $name 

echo $age 
done<student.txt 
$ ./testi.sh 





7.Shell 函 数 
下 例 定 义 了 函数 isodd， 用 于 判断 奇偶 数 ; 





$ cat test1.sh 

#!/bin/sh 

isodd(){ 
if [ $(($1%2)) -eq 1 ] 
then 
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return 1 
else 

return 0 
fi 


read mynum 
isodd $mynum 


myodd=$? 
if [ $myodd -eq 1 ] 
then 
echo "$mynum is an odd number" 
else 
echo "$mynum is an even number" 
fi 
$ ./test1.sh 
12 


12 is an even number 
$ ./testi.sh 


33 is an odd number 
二 一 
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4.3 ”Vim 编辑 器 


4.3.1 Vim 编辑 器 概述 





Vim 是 从 Vi 发 展 出 来 的 一 个 文本 编辑 器 。 代 码 补 充 、 Mi ve fe RE e SE Yaa BY 
功能 特别 丰富 ， 在 程序 员 中 被 广泛 使 用 。 与 Emacs 并 列 成 为 类 UNIX 系 统 用 户 最 喜欢 的 编 
a Vim 的 操作 模式 很 特别 ， 它 强大 的 编辑 能 力 中 有 很 大 一 部 分 是 来 自 于 模式 和 命令 的 











ho 




















Sip RR mee MINED CURIE, 数字 、 符 号 等 ) 组 合成 各 种 
命令 。 比 如 ; 普通 模式 命令 "dd 表示 删 除 当前 行 ， “dj 表示 删除 至 I 下 一 行 ， 

”的 名 ee 行 ， 组 合 后 “dj”* 表 示 删 除 当 前 行 和 下 一 行 。 男 

重复 “dd” 两 次 ) Alay? 的 效果 是 一 a 
Dem ORDNE ARRS | 














Filia An 4 的 命 人 
使 用 的 话 ， 那 么 就 没有 模式 的 编辑 器 更 加 寓 ME aaa 
模式 的 组 合 We 符 就 可 转换 进入 各 种 模式 。 比 如 : 在 普 


通 模式 中 ， AIRE WROTE NABER. 比较 普通 的 方式 是 按 “a”(append/ 仍 加 ) $ë 
或 “4” (insert/ 插 入 ) 键 


可 通过 下 面 的 方式 来 启动 Vim: 























$vim 








启动 后 ， 显 示 界 面 如 图 4-1 所 示 。 


局 动 后 可 进行 一 些 简单 的 操作 。 首 先 ， 可 按 i 键 进入 插入 模式 ， 输 入 字符 ， 如 图 4-2 所 
ZN o 


然后 ， 按 Esc 键 退出 插入 模式 ， 输 入 “:wqlhello”， 并 以 “hello" 为 文件 名 ， 存 盘 退 出 
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VIM - Vi IMproved 


版 本 7,4,160 
维护 人 Bram Moolenaar 等 
修改 者 <bugzillatredhat com 
Vim 是 可 自由 分 发 的 开放 源 代码 软件 


By vin 的 开发 ! 
:help sponsor<Enter> ”查看 说 明 


:q<Enter> 退出 
chelp<Enter> 或 <F1> 查看 在 线 帮助 
:help version7<Enter> ”查看 版 本 信息 





9 em 7 41 1 PNM 








图 4-1 Vim 界 面 





$ cat hello 


want call bbt .cam OA A TAE 


hello 
world! 





图 4-2 ”插入 模式 
4.3.2 Vim 常 用 命令 
1. 模 式 转 换 命令 
模式 间 切 换 的 方法 有 如 下 三 种 情况 。 
.其 他 模式 转 普 通 模式 :Esc 键 。 
.普通 模式 转 插 入 模式 ， 如 下 列 命令 所 示 : 


i 在 光标 前 插入 








I 在 行 首 插入 





a 在 光标 后 插入 





A 在 行 末 插入 





0 在 当前 行 之 下 新 建行 





0 在 当前 行 之 上 新 建行 
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r 车 换 当 前 字符 


R 从 当前 字符 开始 蔡 换 





:普通 模式 转 命令 模式 ， 按 “:” 键 。 
2. 常 用 命令 
1) 可 以 使 用 以 下 方式 来 移动 光标 : 
j 向 下 k 向 上 
IHE yay ze 
w 下 一 个 单词 词 首 WwW 将 特殊 符号 视 为 单词 的 一 部 分 
b 上 一 个 单词 词 首 BHE 
e 单 词 末尾 E 同 上 《忽略 标点 ) 
0 行 首 人 ^ 行 首 文字 〔 行 首 空 格 之 后 ) 
$ 行 末 
2) 可 用 以 下 方式 进行 编辑 : 
x 剪 切 当前 字符 ”dd 剪 切 当前 行 
y 复 制 可 视 模式 选取 字符 ”yy 复制 当前 行 
p 在 光标 后 粘贴 P 在 光标 前 粘贴 
u 撤 消 rz 字符 所 有 字符 替换 为 新 字符 
uU~ 分 别 是 所 有 字母 变 小 写 、 变 大 写 、 反 转 大 小 写 
>< 分 别 是 缩 进 和 反 缩 进 “<Ctrl+r> 重 做 
<Ctrl+y> 逐 字 克 隆 上 一 行内 容 <Ctrl+e> 逐 字 克 隆 下 一 行内 容 
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4.4 虚拟 化 平台 


维基 百科 将 虚拟 化 〈Virtualization ) 定义 为 : “虚拟 化 是 一 种 资源 管理 技术 ， 是 将 计 
算 机 的 各 种 实体 资源 ， 如 服务 器 、 网 络 、 人 了 转换 ， 然 后 呈现 出 
来 ， 打 破 实 体 结 构 间 的 不 可 切割 的 障碍 ， 使 用 户 能 以 比 原本 的 组 态 更 好 的 方式 来 应 用 这 些 
资源 。 这 些 资源 的 新 虚拟 部 分 是 不 受 现 有 资源 的 架设 方式 、 地 域 或 物理 组 态 所 限制 的 ， 
虎 所 指 的 虚拟 化 资源 包括 计算 能 力 和 数据 存储 。 可 以 看 到 它 始 终 如 一 的 目标 就 是 实现 对 IT 
资源 的 充分 利用 。* 与 多 任务 及 超 线程 技术 不 同 的 是 ， 虚 拟 化 技术 允许 同时 运行 多 个 操作 
系统 ， 而 且 每 一 个 操作 系统 中 都 有 多 个 程序 在 运行 ， 每 一 个 操作 系统 都 运行 在 一 e 
CPU 或 是 虚拟 主机 上 。 而 超 线程 技术 只 是 单 CPU 柑 拟 双 CPU 米 于 衡 程序 运行 性 能 ， 
UH, 只 能 协同 工作 ;多 任务 则 是 指 在 一 个 操作 丢 统 间 多 不 程序 
可 时 一 起 运 介 。 


1959 年 ， mE 斯 托 弗 (Christopher Strachey) 发 表 了 了 篇 学 术 报 告 ， 名 为 “大 型 高 速 
计算 机 中 的 时 间 共 享 ”， 他 在 文中 提出 了 虚拟 化 的 基本 概念， 这 篇 文章 也 被 认 为 是 虚拟 化 
技术 的 最 早 论述 。 可 以 说 虚拟 化 作为 一 个 概念 蕉 正式 提出 就 是 从 二 时 开始 的 : 最 早 在 商业 
系统 上 实现 虚拟 化 的 是 IBM 公 司 在 1965 年 发 布 的 BM ,7044， 它 允许 用 户 在 一 会 主机 上 运 

行 多 个 操作 系统 ， 让 用 户 尽 可 能 充分 地 利用 昂贵 的 大 型 机 资源 ， 之 后 IBM 还 开发 了 型 号 为 
Model 67 的 System/360 主 机 ， Model 67 主 机 通过 虚拟 机 监视 器 (Virtual Machine Monitor) 
虚拟 所 有 的 硬件 接口 。 在 早期 的 计算 中 ， 操 作 系 统 被 称 为 Supervisor， 能 够 运行 在 其 他 操 
作 系 统 之 上 的 操作 系统 被 称 为 hypervisor，VMM 直 接 运 行 在 底层 硬件 上 ， TE 
拟 机 CVM) ， E cane aD (CMS, Conversational itor 

System) > 199945 ee ean x 
Ie EMILEK AMIER T POIRA SE HEI 


纵 观 虚拟 化 技术 的 发 展 ， 虚 拟 化 技术 的 初衷 就 是 为 了 实现 更 高 的 设备 利用 率 ， 使 用 
能够 尽 可 能 多 地 利用 系统 资源 ， 这 样 就 能 够 在 单个 服务 器 上 虚拟 多 个 系统 ， 人 
a 显然 可 以 节省 空间 、 冷 却 和 管理 的 be T 

es 困难 ， 虚 拟 化 技 支持 动态 迁移 (Live a 
虚 
云 
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o 未 来 ， 很 可 能 将 整个 数据 中 心 全 面 虚拟 化 ， 使 用 户 能 够 获得 一 个 随 需 应 变 





4.4.1 Citrix Xenserver 概 述 











Citrix Xenserver 是 思 杰 基于 Linux 的 虚拟 化 服务 器 。 它 是 一 种 全 面 的 、 易 于 管理 的 服 
务 器 虚拟 化 平台 ， 基 于 3 昌 大 的 Xen Hypervisor 程 序 上, 文 er 技术 被 广 泛 认为 是 业界 最 快 
速 、 最 安全 的 虚 拟 化 软 ie 而 XenServer 则 是 为 了 高 效 地 管理 Windows 和 Linux 虚 拟 服 务 器 
而 设计 的 ， 可 提供 经 济 高 效 的 服务 器 整合 ， 并 能 保证 业务 的 连续 性 。 


XenServer 可 提供 在 云 计算 环境 中 经 过 验证 的 企业 级 虚拟 化 平台 ， 可 提供 创建 和 管 
虚拟 基础 架构 所 需 的 所 有 功能 ， 深 得 很 多 要 求 苛刻 的 企业 的 信赖 ， 被 广泛 用 来 运行 最 can 
的 应 用 ， 而 且 被 最 天 规模 的 云 计 算 环 境 和 xSP 所 采用 。 


XenServer 分 为 免费 版 和 Premium 版 ， 它 们 各 自 的 特征 如 下 : 


-免费 版 XenServer 配 备 有 64 位 系统 管理 程序 和 实时 迁移 及 转换 工具 ， 可 创 
建 一 个 虚拟 化 平台 来 最 大 限度 地 提高 虚拟 机 的 密度 和 性 能 


Premium 版 XenServer 对 平台 进行 了 更 深层 的 扩展 ， 可 帮助 任何 规模 的 企业 实现 管理 
流程 的 集成 和 自动 化 ， 是 一 种 先进 的 虚拟 数据 中 心 解决 方案 。 


XenServer 可 整合 服务 器 工作 负载 ， 进 而 节约 电源 、 冷 却 和 管理 成 本 ， 能 更 有 效 地 适 
应 不 断 变化 的 IT 环境 ， 优 化 利用 现 有 的 硬件 设备 并 提高 工 的 可 靠 性 ， 主 要 拥有 以 下 优势 : 
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:将 开 成 本 降低 50% 甚 至 更 多 。 虽 然 服务 器 整合 通常 是 实施 服务 器 虚拟 化 的 主要 驱动 
因素 ， 但 企业 可 以 获得 更 多 的 优 努 ， 而 不 仅仅 只 是 服务 Pe ROMS, XenServer 虚 拟 
化 管 BEATA a 求 降低 10 倍 。 数 据 中 心 内 的 服务 器 整合 可 以 降低 功 耗 和 管理 
成 本 ， 同 时 还 可 以 打造 更 绿色 环保 的 IT 环境 。 


提高 IT 灵活 性 。 虚 拟 化 使 数据 中 心 生 fee IN lig 化 的 IT 要 求 。 例 如 ， 
XenServer 可 以 创建 出 能 够 无 名 集成 现 有 存储 环 境 的 虚拟 基础 架 构 。 这 样 就 可 以 缩短 IT 部 
门 满足 用 户 需求 所 需 的 时 间 。 


确保 服务 器 性 能 。XenServer 可 以 优化 服务 器 工作 负载 的 位 置 ， 提 高 性 能 和 利用 率 ， 
anid Oe UT 的 服务 器 准备 情况 。 这 样 便 可 确保 始终 能 够 达到 应 用 的 要 求 和 预期 的 性 
能 标准 ， 帮 助 企业 加 快 向 生产 环境 中 交付 新 应 用 的 速度 。 


.最 大 限度 地 减少 服务 器 宕 机 。XenServer 可 以 有 效 地 减少 计划 内 服务 器 罕 机 ， 调 
障 的 有 影响， 预防 灾难 并 搭建 始终 可 用 的 虚拟 基础 架构 。 服 务 器 和 应 用 的 升级 可 以 在 正常 的 
oe 这 样 就 可 以 减 小 对 用 户 生产 率 的 影响 ， 节 约 成 本 ， 使 IT 人 员 在 

了 能 中 
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4.4.2 Citrix Xenserver 部 署 





Citrix Xenserver 与 传统 虚拟 机 类 软件 不 同 ， 它 无 需 底 居 原 生 操 作 系统 的 支持 ， 也 就 是 

说 XenServer 本 号 就 具备 了 操作 系统 的 功能 ， 是 能 间接 安装 在 服务 器 上 引 导 启 动 并 运行 
的 ， 其 稳定 性 较 Hyper-V 高 ， 对 Windows 2008 R2 及 Linux Server 提 供 了 BMH 此 
外 ，Citrix 还 提供 了 XenCenter 工 具 ， 可 通过 图 形 化 的 控制 界面 ， 直观 地 管理 
XenServer 服 务 器 的 工作 。 例如 : 将 一 台 性 和 i ee Ta “让 这 些 服 
务 器 同时 运行 以 提供 各 种 应 用 服务 ， 有 有 省 而 件 投资， 方便 管理 。 假 设 公司 只 有 一 台 Web 
服务 器 ， 因为 公司 业务 发 展 ， 现 在 需要 增加 邮件 服务 、 BBS HLF SHERINI 
台 物 理 服务 句 来 分 别 实现 上 述 功能 ， 而 只 须 使 用 XenServer 在 一 台 物 理 服务 器 上 创建 三 
虚报 的 服务 中 运行 各 自 的 操作 系统 和 应 用 服务 ， 某 台 虚拟 服务 器 的 宕 机 也 不 会 影响 到 其 


XenServer 的 部 署 很 简单 ， 安 装 界面 人 性 化 且 有 详细 的 提示 ， 前 提 是 : 安装 XenServer 
We a 7 操作 系统 ， 且 拥有 至 少 一 块 网 卡 。 下 载 XenServer 的 安装 ISO 文 
件 ， 刻 录 成 光盘 插入 服务 器 的 光驱 后 ， 启 动 服务 器 即 可 安装 。 
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Q 提示 。 XenServer 官 网 地 址 为 : http://www.citrix.com/products/xenserver/ 


XenServerg 下 载 地 址 为 : http://downloadns.citrix.com.edgesuite.net/7281/XenServer- 
6.2.0-install-cd.iso 


XenServer 官 方 安装 文档 可 以 从 如 下 网 址 下 
载 : http://www.citrix.com/content/dam/citrix/en_us/documents/products-solutions/citrix- 
xenserver-quick-installation-and-licensing-guide.pdf 








4.4.3 ”基于 XenCenter 的 虚拟 服务 器 管理 


T 














a $ Le 户 机 安装 管理 工具 XenCenter 进 行 管理 。XenCenter 采 用 基于 图 形 
用 户 界面 的 管理 控制 台 ， 该 控制 台 可 安装 在 任何 Windows PC 或 服务 器 上 。 Fe 
完毕 tape ， 直 接 使 用 浏览 器 访问 XenServer 的 IP 地 址 ， 下 载 XenCenter 并 安装 。 也 可 在 
XenServertly 2 GAEL ISON UE 内 找到 XenCenter 的 安装 程序 ， 双击 执行 文件 
XenCenter.msi 后 ， 按 提示 一 步 步 安 装 即 可 ， 如 图 4-3 和 图 4-4 所 示 。 
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P dtixguestagentx64 
BB citrixquestagentx86 
fi no 64 
p “4 86 
BB citricrendriversx64 





过 


{l dtrimendriversx86 

fË installwizard 

@ windows-pvdrivers-xenlegacy 
xe-cli-6.2.0-70442c.i686 

@ XenCenter 


f 


XenCenter 修改 日 其 2013/6/14 21:55 
Windows Installer 程序 包 大 小 484 MB 


2013/6/14 21:33 
2013/6/14 21:33 
2013/6/14 21:33 
2013/6/14 21:33 
2013/6/14 21:33 
2013/6/14 21:33 
2013/6/14 21:33 
2013/6/14 21:10 
2013/6/14 21:20 
2013/6/14 21:55 


Windows Install... 
Windows Install... 
Windows Install... 
Windows Install... 
Windows Install... 
Windows Install... 
Windows Install... 
应 用 程序 

RPM 文件 
Kankan ICO 图 像 


ARR: 2013/6/14 21:55 


图 4-3 ”XenCenter 安 装 包 
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748 KB 
748 KB 
255 KB 
233 KB 
1,637 KB 
1,223 KB 
789 KB 
1,618 KB 
958 KB 
25 KB 





Welcome to the Citrix XenCenter Setup 
Wizard 


The Setup Wizard allows you to change the way Citrix 
XenCenter features are installed on your computer or to 
remove it from your computer. Click Next to continue or 
Cancel to exit the Setup Wizard. 





图 4-4 ”XenCenter 安 装 程序 
安装 完 XenCenter 后 启动 ， 其 界面 如 图 4-5 所 示 。 


在 XenCenter 处 点 击 鼠 标 右 键 ， 选 择 Add 或 点 击 上 方 工具 条 中 的 Add New Server 按 包 
增加 一 台 XenServer 服 务 器 ， 输 入 服务 器 IP 和 root 账 户 密码 。 如 图 4-6 所 示 。 
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| File View Pool Sever VM Storage Templates Took Window Help 


Citrix XenServer 


Industry leading, open source platform for cloud, server and desktop virtualization 





LEARN 
about using 
XenCenter 





ADD 
a server 








Community Support Partners 


+ Network with other XenServer users 
a Visit the Citrix Knowledge Center 
* Learn more about partner offerings 


图 4-5 XenCenter H 
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TRY 
Desktop 
Virtualization 





Enter the host name or IP address of the server you want to add 
and your user login credentials for that server. 


Server: 192.168.1100 
User login credentials 


Username: root 


Password: eeeeeee| 











图 4-6 ”增加 一 台 XenServer 服 务 器 


@ 提示 一 台 XenServer 服 务 器 即 一 台 物 理 服务 器 ， 而 不 是 指 虚 拟 服 务 器 ， 
XenCenter 可 同 时 管理 多 台 XenServer 服 务 器 及 运行 在 XenServer 服 务 器 上 的 虚拟 服务 器 。 


当 XenCenter 成 功 连接 服务 器 后 ， 可 看 到 服务 器 的 信息 ， 如 图 4-7 所 示 ， 在 此 
XenServer 服 务 器 上 一 共 建 立 了 三 台 虚 拟 服务 器 ， 服 务 器 前 面 ee 前 的 
状态 ， 其 中 ddb- template 服 务 器 正在 运行 中 ， 另外 两 台 服 务 器 处 于 关机 状态 
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File View Pool Sever VM Storage Templates Tools Window Help 
Ge O sora + | [p Add New Sener | RE New Poo! 8) New Storage [New vit | @ shut Down 图 lo (Pp suspend 


Sel Meso ai Corale ee Supp 


人 
Vi General Properties 


日 &® xenserver | 
ae 
B hadoop-template 
B pp-template 
@ DVD drives 
图 Local storage 
@ Removable storage 





Operating System: 

BIOS strings copied: 

Virtualization state: 

Time since startup: 0 minutes 

UUID: 33f62fba-dl b2-36ce-621e-cblcd2dfe7da 





| Boot Options 








图 4-7 服务 器 的 信息 


选择 某 台 虚拟 服务 器 ， 点 击 鼠 标 右键 ， 将 出 现 管理 菜单 ， 可 对 虚拟 服务 器 进行 管 
理 ， 比 如 重启 、 关 机 等 ， 如 图 4-8、 图 4-9 所 示 。 
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| Fle View Pol Sener VM Stage Temples Toos Window Hep 


Q ace + Forward -| [E Aca New Server | B New Poot È New Storage E newn | (stat G reboot C 


Geel Manoy [Songe [Netring | Conse Pte] Sup eg 


OVETTIES 


IgE 和 XenCenter 
a B xenserver-myhaspl 


hadoop-template 


Take a Snapshot... 
Convert to Template... 
Assign to vApp 


63777693-265c-Tfa6-c013-b964bd2€2783 
Boot Options 


图 4-8 ”对 虚拟 服务 器 进行 启动 、 找 贝 、 创 建 快照 等 操作 
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File View Pool Server VM Storage Templates Tools Window Help 


Q Back + @ Forward ~ | Eh Add New Server | RE New Poot E) New Storage 闻 New VM | 


VM General Properties 
Force Shutdown 


Force Reboot 


Take a Snapshot... 
Assign to vApp ddb-template 


Install XenServer Tools... 
Properties 
| Folder: 
Operating System: 
BIOS strings copied: No 
Virtualization state: XenServer tools not installed 


Time since startup: 13 minutes 





图 4-9 对 虚拟 服务 器 进行 重启 、 关 机 等 操作 


选择 某 台 虚拟 服务 器 后 ， 点 击 Console 选 项 卡 ， 可 查看 当前 虚拟 服务 器 的 运行 情况 ， 
如 图 4-10 所 示 。 
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B ddb-template on 'xenserver-myhaspl' 


General | Memory | Storage | Networking| Console ‘Performance | Snapshots | Logs 











ent0S Linux 7 (Core) 
ernel 3.16.6-123.8.1.e17.x86_64 on an x86_64 


ogon login: 


ent0S Linux ” (Core) 
ernel 3.10.0-123.8.1.e17.x86_64 on an x86_64 


ogon login: _ 








图 4-10 ”虚拟 服务 器 的 运行 情况 


虚拟 服务 器 的 创建 很 简单 ， 只 须 点 击 上 方 工具 条 的 New VM 按 钮 即 可 ， 如 图 4-11 至 图 
4-19 所 示 。 创 建 完 虚拟 服务 器 后 ， 将 操作 系统 的 安装 光盘 放 入 XenServer 服 务 器 的 光驱 ， 
即 可 继续 在 该 虚拟 服务 器 上 安装 操作 系统 。 
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p Select a VM template 


Template 
Name Template details 
Installation Media 
Home Server 

CPU & Memory 


Ubuntu Maverick Meerkat 10.10 (64-bit) (exp... Ubuntu Ifthe operating system you plan 
m | | to use is not listed, you may be 
Ubuntu Precise Pangolin 12.04 (32-bit) Ubuntu able to install it by selecting this 


Ubuntu Precise Pangolin 1204 (64-bit) Ubuntu template. We recommend that 
only advanced users attempt to 


Storage G) Citric XenApp on Windows Server 2003 (32-b... Citrix use this template, and you should 
Networking Citrix XenA\ Windows Se 64-b... Citri note that our products have been 
w ix] rix XenApp on Windows Server 2003 ( rix si van fe 
Finish € Citric XenApp on Windows Server 2008 (22-b.. Citrix supported distributions and 

ne i oe specific versions covered by the 
Q) Citric XenApp on Windows Server 2008 (64-b... Citrix la oreka ai, 
G) Citrix XenApp on Windows Server 2008 R2 (6... Citri 
加 Other install media 


E Xen API SDK 











Copy host BIOS strings to VM 





(raon) aa Ca 


图 4-11 选择 虚拟 机 模板 ， 可 不 选择 已 有 模板 
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ø Name the new virtual machine 


Installation Media 
Home Server 
CPU & Memory 
Storage 
Networking 
Finish 





Enter a name that will help you to identify the virtual machine later. This could be a name that describes its 
software and hardware such as RHEL DHCP Server, Win2K3 XenApp Server or Exchange 2007 Client Access 
Server, This name will also be displayed in XenCenter's Resources pane and can be changed later. 


You can also add a more detailed description of the VM, if you wish, 


Name centos 


Description: 





图 4-12 ”虚拟 服务 器 命名 
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p Locate the operating system installation media 





Template 

Name 

Installation Media 
Home Server 

CPU & Memory 
Storage 
Networking 

Finish 





Select the installation method for the operating system software you want to install on the new VM. 


© Install from ISO library or DVD drive: 


DVD drive 0 on xenserver-myhaspl 


© Boot from network 





图 4-13 ”选择 系统 安装 光盘 的 位 置 
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Template 

Name 
Installation Media 
Home Server 
CPU & Memory 
Storage 
Networking 
Finish 


When you nominate a home server for a virtual machine, the virtual machine will always be started up on 
that server if it is available, If this is not possible, then an alternate server within the same pool will be 
selected automatically, 


©) Don't assign this VM a home server. The VM will be started on any server with the necessary resources, 


(Shared storage required) 
@ Place the VM on this server: 


xenserver-myhasp! 13550 MB available (16335 MB total) 








图 4-14 ”选择 虚拟 服务 器 空间 占有 的 物理 硬盘 
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ø Allocate processor and memory resources 


Template Specify the number of virtual CPUs and the amount of memory that will be initially allocated to the new 
iii virtual machine, 


Installation Media Number of vCPUs; a 


Home Server Memory: | md MB 


CPU & Memory 





Storage 
Networking 


Finish 








图 4-15 ”选择 虚拟 服务 器 需要 使 用 的 CPU 和 内 存 数 量 
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ø Configure storage for the new VM 


Template The virtual machine template you selected earlier provides the virtual disks listed below. You can change the 
iii properties of these virtual disks, and add more disks if required, 


Installation Media Alternatively, you can select the second option below to create a diskless VM that can be booted from the 
nai network and does not use any virtual disks, 
me Server 


CPU & Memory e you have finished configuring disks for the new virtual machine, click Next to continue to the next 


@© Use these virtual disks: 


Storage 


Enter a name, description and size for your virtual disk, The size of your disk and the home server setting 
of any VM the disk belongs to will affect which storage locations are available, 


Name: New virtual disk 


Description: 
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图 4-16 ”为 虚拟 服务 器 分 配 人 硬盘 空间 


p Configure storage for the new VM 


Template The virtual machine template you selected earlier provides the virtual disks listed below. You can change the 
"= properties of these virtual disks, and add more disks if required, 


Installation Media Alternatively, you can select the second option below to create a diskless VM that can be booted from the 
T network and does not use any virtual disks, 
me Server 


CPU & Memory be you have finished configuring disks for the new virtual machine, click Next to continue to the next 


© Use these virtual disks: 


_ Location Size Shared 


* Local storage on xenserver-myhaspl 20GB False 


Storage 








[C] Use storage-level fast disk clone 


© Create a diskless VM that boots from the network 





图 4-17 硬盘 空间 分 配 完毕 ， 可 继续 分 配 
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p Configure networking on the new VM 





Template The virtual machine template you have selected provides the virtual network interfaces listed below, You 


iiia can configure or delete the default virtual network interfaces here, and add more if required, 


Installation Media Virtual network interfaces on centos? 
Home Server 


CPU & Memory 


MAC Network 
A <autogenerated MAC> Network 0 


Storage pa autogenerated MAC> Network 1 


Networking 














O Using a Default template, you can configure up to 4 virtual network interfaces during 
VM creation, To configure more than 4, create a Custom template or add extra virtual 
network interfaces from the Network tab after creating the new VM, 





图 4-18 选择 虚拟 服务 器 使 用 的 物理 网 卡 
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日 © KenCenter 
日 re) xenserver-myhaspl 
i] centos7| 
Lr, ddb-template 
B hadoop-template 
B pp-template 


&@ DVD drives 
Local storage 
| Removable storage 





图 4-19 创建 成 功 后 的 虚拟 服务 器 centos7 
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4.5 Linux 环 境 下 的 NumPy 安 装 


NumPy (Numeric Python) 是 用 Python 实现 的 一 个 科学 计算 包 ， 提 供 了 许多 高 级 的 数 
讲解 NumPy 在 Linux 下 的 安装 ， 安 装 过 程 如 下 所 示 。 

1) 下 载 NumPy， 网 址 为 : http://www.scipy.org/scipylib/download.html 。 

2) 系统 更 新 : 








[myhaspl@localhost ~]$ su 





Z: 





[root@localhost myhaspl]# yum install update 





3) 安装 相关 工具 : 





[root@localhost myhaspl]# yum install wget 
[root@localhost myhaspl]# yum install unzip 
[root@localhost myhaspl]# yum install gcc 
[root@localhost numpy-1.9.0]# yum install python-devel 





4) 下 载 NqmPy 源 人 码 并 解压 : 





[root@localhost myhaspl]# wget 
http://jaist.dl.sourceforge.net/project/numpy/NumPy/1.9.0/numpy-1.9.0.zip 





5) 安装 NumPy: 





[root@localhost myhaspl]# unzip numpy-1.9.0.zip 
[root@localhost myhaspl]# cd numpy-1.9.0 
[root@localhost numpy-1.9.0]# python setup.py install 





6) 安装 完毕 后 重启 : 





[root@localhost numpy-1.9.0]# reboot 





7) 测试 安 闭 是 否 成 功 ， 如 果 能 导入 NumPy 库 ， 则 表示 安装 成 功 : 





[myhaspl@localhost ~]$ python 
Python 2.7.5 (default, Jun 17 2014, 18:11:42) 
[GCC 4.8.2 20140120 (Red Hat 4.8.2-16)] on linux2 


Type "help", "copyright", "credits" or "license" for more information. 
>>> import numpy as np 
>>> 
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4.6 ila 下 的 R 运 行 环境 


言 是 一 套 完整 的 数据 处 理 、 计 算 和 制图 软件 系统 ， 主 要 用 于 统计 分 析 。 
| 可 依次 输入 以 下 命令 ， 安装 R 运 STH: 








# yum install gcc-gfortran 
# yum install gcc gcc-c++ 
# yum install readline-devel 
# yum install libXt-devel 


# wget http://mirror.bjtu.edu.cn/cran/src/base/R-3/R-3.1.1.tar.qz 


# tar zxvf R-3.1.1.tar.gz 

#cd R-3.1.1 

#./configure 

#make 

#make install 

#make check 

#ln -s /home/myhasp1/R-3.1.1/bin/R /usr/local/bin/R 
$R 


E 
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4.7 ”PyPy 编 译 器 
4.7.1 ”PyPy 概 述 


CP ython 是 用 C 语 言 实现 的 Python 解释 器 ， 也 是 官方 的 并 且 是 最 广泛 使 用 的 Python 解 
释 器 。 他 它 并 不 是 唯一 的 选择 ， 它 使 用 字 节 BRER, 任何 的 程序 源 代码 在 执行 之 前 都 
要 先 编 详 成 字 届 个， 这 样 必 然 会 影响 到 Python 程 序 的 执行 效率 。 此 外 ，CPython 还 存在 一 
个 问题 ， 在 多 处 理 器 的 计算 机 上 使 用 CPython 要 受 GIL (Global Interpreter Lock) WAR, 
GIL 使 得 CPython 不 ` 能 进行 并 发 编程 ， 要 做 到 并 发 编程 ， 就 必须 为 每 一 个 线程 运行 一 个 解 
释 器 ， 但 是 它们 之 间 的 通信 就 会 非常 困难 。 


PyPy 是 Python 开 发 者 为 了 更 好 地 Hack ye 建 的 项 目 ， 它 比 CPython 更 加 灵活 、 
更 容易 实施 。 PyPy 文 持 Python 语 襄 言 的 所 有 核心 音 E a eel 言 标准 库 函 
块 ， Jf POBL | Pyt hon 语 言 的 test suite。 更 为 重 PyPy 实 现 了 动态 编译 ， 提 供 了 
译 器 和 沙 盒 功 能 ， VAIAS 比 CPython 要 快 很 多 ， a 安全 地 运行 一 些 不 被 信任 wie. 
码 ， 此 外 ， PyPy 还 有 支持 微 线程 的 版 本 。 目 前 PyPy 的 最 新 版 本 主要 拥有 以 下 特征 : 


更 快 的 速度 。 在 JIT (Just-in-Time) 编译 器 的 帮助 下 ，Python 程 序 能 在 PyPy 下 跑 得 更 





ain: 



































、 














co 











' 更 高 的 内 存 使 用 效率 。 相 对 CPython 来 说 ，PyPy 能 更 有 效 地 利用 内 存 ， 尤 其 是 几 百 
兆 或 更 多 的 内 存 。 


FATE. P Py 对 现 有 的 Python 程 序 有 更 好 的 兼容 性 ， 它 不 仅 支 持 cffi， 还 能 运行 流行 
的 Python 库 ， 比 如 Twisted、Django 等 。 


: 沙 盒 。PyPy 可 以 安全 地 运行 一 些 不 被 信任 的 代码 。 
“Stackless。PyPy 原 生 支 持 Stackless 模 式 ， 提 供 了 真正 的 多 线程 并 发 。 





























名 提示 。 关于 PyPy 的 更 多 资料 可 以 在 官网 http:/www.pypy.org/ 中 查看 。 
4.7.2 ”PyPy 安 装 与 配置 


下 面 以 64 位 centos7( 最 小 化 安装 ) 为 例 ， 讲 解 如 何 安装 和 配置 PyPy。 
首先 ， 依 次 输入 以 下 命令 ， 下 载 并 编译 PyPy: 





# yum install gcc 
# yum install wget 
# wget https://bitbucket .org/pypy/pypy/downloads/pypy-2.3.1-src.tar.bz2 


# tar jxvf pypy-2.3.1-srce.tar.bz2 

# yum install libffi-devel 

# yum install expat-devel 

# yum install ncurses-devel 

# yum install bzip2-devel 

# yum install openssl-devel 

[root@localhost myhaspl]# cd pypy-2.3.1-src/pypy/goal 

# python ../../rpython/bin/rpython -Ojit targetpypystandalone 





然后 ， 安 装 适 用 于 PyPy 的 numpy 包 : 
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# git clone https://bitbucket.org/pypy/numpy. git 


# cd numpy 
# pypy setup.py install 








最 后 ， 为 方便 PyPy 的 调用 ， 可 以 使 用 In 命 令 建 立 软 链接 ，ln 是 Linux 中 一 个 非常 重要 
的 命令 ， 它 的 功能 是 为 某 一 个 文件 在 另外 一 个 位 置 建立 一 个 不 同 的 链接 ， 具 体 用 法 如 下 : 


in - 








s 源 文件 


目标 文件 





4.7.3 ”PyPpy 性 能 


ee een. 下 面 以 除法 与 累加 混合 计算 为 例 ， 
验证 PyPy 的 效率 。 测 试用 Python 程 序 如 下 : 








import time 
start=time.clock() 
sum=0 
i=1.0 
while (i<10000000) : 
sum+=i/2.22 
i=i+1 
print "sum:%f"%sum 
end = time.clock() 
print "seconds:%f"%( end- start) 











分 别 用 CPython 和 PyPy 运 行 上 面 的 程序 ， 结 果 如 下 : 





$ python pythontest.py 
sum: 22522520270270.273438 
seconds: 4.090000 

$ ./pypy pythontest .py 
sum: 22522520270270.273438 
seconds: 0.256000 





从 上 面 的 程序 运行 效果 来 看 ，PyPy 计 算 只 用 了 0.256000 秒 ， 而 CPython 则 花 了 
4.090000 秒 ，PyPy 对 运行 效率 的 提升 是 数量 级 的 ， 也 是 显而易见 的 。 


4.7.4 PyPy 实 践 之 Lempel-Ziv 压 缩 


Ge eee A 编码 和 解码， 以 达到 
压缩 和 解压 文本 的 目的 。 Lempel-Ziv 算 法 基于 在 正文 流 中 很 可 能 会 出 现 词汇 和 短语 重复 的 
情况 而 开发 的 ， 当 出 现 一 个 重复 时 ， iT CA pee UL 压缩 程序 扫描 
这 样 的 重复 ， 同 时 生成 编码 来 代 丛 重复 序列 ， 随 着 时 间 的 推移 ， 编 码 可 以 重用 来 捕获 新 的 
a a 
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_LempeLZiv 算 法 的 关键 在 于 查找 重复 的 序列 ， 当 碰 到 一 个 重复 时 ， 算 法 继续 扫描 直 
以 下 面 这 段 文 本 为 例 对 Lempel-Ziv 编 码 进行 讲解 ， 假 设 需要 压缩 
s OP: 


abaaaabaabaaabbbbbbbabbbbbbbabbbbbaababaababa... 
应 用 Lempel-Ziv 算 法 逐步 对 上 述 文本 进行 编码 : 
1) 建立 一 个 码 表 空 字典 DICT。 


2) 读 入 第 1 个 字符 ca"，DICT 中 无 ca 字符 ， 且 为 空 ， 因 此 将 ca" 增 加 到 DICT 中 ， 索 引 
为 1， 编码 为 “0a”。 最 终 编码 结果 为 : “Oa” 


3) 读 入 第 2 个 字符 “<b”，DICT 中 无 “b” 字 符 ， 因 此 将 “b” 增 加 到 DICT 中 ， 索 引 为 2， 编 
码 为 “0b”。 最 终 编码 结果 为 :“0a0b”。 


4) 读 入 第 3 个 字符 “a*?，DICT 中 有 “a” 字 符 且 索 引 为 1， 此 时 ， 将 紧 跟 其 后 的 第 4 个 字 
符 “a” 与 第 3 个 字符 <a” 合 并 成 一 个 码 段 “aa”*”， 编 码 为 “1a”， 然 后 将 “aa” 增 加 到 DICT 中 ， 索 引 
为 3。 最 终 编码 结果 为 : “0a0b1a”。 


5) 第 4 步 已 经 处 理 过 第 4 个 字符 了 ， 因 此 从 第 5 个 字符 开始 ， 读 入 第 5 个 字符 “a” 和 第 6 

字符 “a"，DICT 中 有 “aa"* 字 符 且 索引 为 3， 此 时 ， 将 紧 跟 其 后 的 第 7 个 字符 中 ”与 第 5、6 个 

字符 组 成 的 串 “aa” 合 并 成 一 个 码 段 <aab”， 编 码 为 "3b”， 然 后 将 “aab” 增 加 到 DICT 中 ， 索 引 
为 4。 最 终 编码 结果 为 : “0a0b1la3b”。 


_ 接 下 来 ， 按 类 似 的 方法 继续 处 理 ， 直 到 读 取 完毕 所 有 需要 压缩 的 字符 才 结 束 ， 最 终 
形成 表 4-1 所 示 的 编码 结果 。 



































表 4-1 Lempel-Ziv 算 法 编码 





下 面 用 Python 来 实现 Lempel-Ziv 压 缩 算 法 ， 程 序 如 下 所 示 。 





# -*- coding: utf-8 -*- 
#1empel-ziv 算 法 


#code :myhaspl@myhaspl.com 
#4-1.py 
# 待 压缩 字符 串 





my_str="""Ubuntu 14.04 LTS includes a wealth of smart filters to make it faster and easier to fi 


s stored on your computer or on the web.Type any query into the Dash home and the Smart Scopes s 
# 码 表 


codeword_dictionary={} 
# 待 压缩 文本 长 度 
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str_len=len(my_str) 
# 码 字 最 大 长 度 


dict_maxlen=1 
# 将 解析 文本 段 的 位 置 〈 下 一 次 解析 文本 的 起 点 ) 


now_index=0 
# 码 表 的 最 大 索引 


max_index=0 

# 

compressed_str="" 

while (now_index<str_len): 
# 向 后 移动 步 长 


mystep=0 
# 当 前 匹配 长 度 





now_len=dict_maxlen 

if now_len>str_len-now_index: 
now_len=str_len-now_index 

# 查 找到 的 码 表 索 引 ， 








0 表示 没有 找到 


cw_addr=0 
while (now_len>0): 
cw_index=codeword_dictionary.get(my_str[now_index:now_index+now_len] ) 
if cw_index!=None: 
# 找 到 码 字 


cw_addr=cw_index 
mystep=now_len 
break 
now_len-=1 
if cw_addr==0: 
# 没 有 找到 码 字 


r 增加 新 的 码 字 


max_index+=1 
mystep=1 
codeword_dictionary[my_str[now_index:now_index+mystep ] ]=max_index 
print "don't find the Code word,add Code word:%s index:%d"% 
(my_str[now_index:now_index+mystep],max_index) 
else: 
# 找 到 码 字 


r 增加 新 的 码 字 


max_index+=1 
codeword_dictionary[my_str[now_ index:now index+mystep+1]]=max_index 
if mystep+1>dict_maxlen: 
dict_maxlen=mystep+1 
print "find the Code word:%s add Code word:%s index:%d"% 
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(my_str[now_ index:now_ index+now_ len],my_str[now_ index:now_ index+mystep+1],max_index) 
# 计 算 压 缩 后 的 结果 


cwdindex='%d '%cw_addr 
if cw_addr==0: 
cwlater=my_str[now_index:now_index+1] 
now_index+=1 
else: 
now_index+=mystep 
cwlater=my_str[now_index:now_index+1] 
now_index+=1 
cw=cwdindex+cwlater 
compressed_str+=cw 
print "\n------------------------------------ \n 
print my_str 
print WN RES RERERARR EER ERE EERE KER ERA ERRRRER EN AW 
print compressed_str 
print "\n------------------------------------ \n" 





现在 用 以 上 程序 将 下 面 的 文本 进行 压缩 : 





Ubuntu 14.04 LTS includes a wealth of smart filters to make it faster and easier to find the con 

s stored on your computer or on the web.Type any query into the Dash home and the Smart Scopes s 
SA ` 

缩 结 果 为 : 


OUObOUONOt3 01040.008 OLOTOSO 0i4c0l3d0e0s15a15w20a18t0h1500f15s0m0a0r5 28125e32s15t0015m31k20 1 
23h20t26e46i501 21t38r20d27n15y60r15c38m0p3t51 73 57 Sh4iw20b9TOy80e22n89 Oq3e32y15i4t38 85e15D4 

















it 


a ee ey: 将 程序 依次 读 入 文本 ， 扩 充 码 表 字 典 ， 最 终 输 出 压缩 





$pypy 4-1.py 


don't find the Code word,add Code word:U index:1 
don't find the Code word,add Code word:b index:2 
don't find the Code word,add Code word:u index:3 
don't find the Code word,add Code word:n index:4 
don't find the Code word,add Code word:t index:5 
find the Code word:u add Code word:u index:6 
don't find the Code word,add Code word:1 index:7 
don't find the Code word,add Code word:4 index:8 
don't find the Code word,add Code word:. index:9... 


137S8174t186r41m38s33u21e28uU116t98y60 38v82t16m20. 








程序 4- 1.py 信 压缩 时 生成 了 码 表 ， 这 就 带 来 了 一 个 问题 ， 码 表 字 典 文 件 会 很 大 ， 而 每 

压缩 文件 都 要 将 码 表 附带 上 ， 这 样 就 无 法 达到 压缩 文件 尺寸 的 作用 。 实 际 上 Lempel-Ziv 
TEI 缩 文件 中 并 不 需要 存放 码 表 ， 可 在 解压 时 自动 生成 码 表 ， 此 外 ， 同 时 还 可 根据 被 
压缩 文件 的 大 小 确定 索引 是 整 型 、 长 整 型 还 是 字 节 型 ， 这 样 就 可 动态 地 调整 在 压缩 文件 中 
索引 所 占有 的 空间 ， 保 证 了 压缩 率 。 下 面 用 Python 实现 对 文本 文件 进行 Lempel-Ziv 压 缩 与 
解压 缩 ， 程 序 如 下 所 示 : 








ae 

















# -*- coding: utf-8 -*- 
#1lempel-ziv 压 缩 与 解压 缩 文件 
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#code:myhaspl@myhaspl.com 
#4-2.py 

import struct 

import sys 
txtfilename=sys.argv[1] 
compressfn=sys.argv[2] 
myst r=" LLI 

print "\n 读 取 源 文件 


" ,decode("utf8") 
mytextfile= open(txtfilename, 'r') 
try: 

mystr=mytextfile.read( ) 
finally: 

mytextfile.close() 
my_str=mystr 
# 码 表 


codeword_dictionary={} 
# 待 压缩 文本 长 度 


str_len=len(my_str) 
# 码 字 最 大 长 度 


dict_maxlen=1 
# 将 解析 文本 段 的 位 置 〈 下 一 次 解析 文本 的 起 点 ) 


now_index=0 
# 码 表 的 最 大 索引 


max_index=0 
# 压 缩 后 的 数据 





print "\n 生 成 压缩 数据 中 


".decode("utf8") 

compresseddata=[] 

while (now_index<str_len): 
# 向 后 移动 步 长 


mystep=0 
# 当 前 匹配 长 度 


now_len=dict_maxlen 

if now_len>str_len-now_index: 
now_len=str_len-now_index 

# 查 找到 的 码 表 索 引 ， 








0 表示 没有 找到 


cw_addr=0 
while (now_len>0): 
cw_index=codeword_dictionary.get(my_str[now_index:now_index+now_len]) 
if cw_index!=None: 
# 找 到 码 字 
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cw_addr=cw_index 
mystep=now_len 
break 
now_len-=1 
if cw_addr==0: 
# 没 有 找到 码 字 


r 增加 新 的 码 字 


max_index+=1 
mystep=1 
codeword_dictionary[my_str[now_index:now_index+mystep ] ]=max_index 
print "don't find the Code word,add Code word:%s index:%d"% 
(my_str[now_index:now_index+mystep],max_index) 
else: 
# 找 到 码 字 


r 增加 新 的 码 字 


if now_index+mystept+i<str_len: 
# 如 果 文 件 尾部 正好 是 字典 中 的 码 字 ， 后 面 再 无 内 容 时 ， 这 部 分 将 不 会 被 执行 





max_index+=1 
codeword_dictionary[my_str[now_index:now_index+mystep+1] ]=max_index 
if mystept+1>dict_maxlen: 
dict_maxlen=mystep+1 
print "find the Code word:%s add Code word:%s index:%d"% 
(my_str[now_index:now_index+now_len],my_str[now_index:now_index+mystep+1],max_index) 
# 压 缩 后 的 结果 





cwdindex=cw_addr 

if cwdindex==0: 
cwlater=my_str[now_index:now_index+1] 
now_index+=1 

else: 
now_index+=mystep 
if now_index>=str_len: 
# 文 件 已 经 读 取 完 毕 ， 后 面 无 内 容 


cwlater="" 
else: 
cwlater=my_str[now_index:now_index+1] 
now_index+=1 
cw=(cwdindex, cwlater ) 
compresseddata.append(cw) 
print "\n 生 成 压缩 数据 头 部 





" ,decode("utf8") 
# 生 成 数据 压缩 大 小 格式 





, 65535 为 


H 能 容纳 的 最 大 数据 


if len(codeword_dictionary)<=65535: 


FLAG_FMT='H' 
FLAG_LEN='2' 
else: 
FLAG_FMT='I' 
FLAG_LEN='4' 
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# 压 缩 数据 写 入 文件 


zm 


print "\n 将 压缩 数据 写 入 压缩 文件 中 





".decode("utf8"), 
lzv_file = open(compressfn, 'wb') 
try: 

# 写 入 压缩 数据 的 头 部 信息 


# 压 缩 数据 长 度 


1zv_len=len(compresseddata) 
lzv_file.write(struct.pack('I',1zv_len) ) 
# 数 据 解码 大 小 格式 


1zv_file,write(struct.pack('1s1s' ,FLAG_FMT, FLAG_LEN) ) 
# 写 入 压缩 数据 


for temp_data in compresseddata: 
temp_key, temp_later=temp_data 
temp_wdata=struct.pack(FLAG_FMT+'1s', temp_key, temp_later ) 
1zv_file.write(temp_wdata) 
print ".", 
finally: 
1zv_file.close() 
# 解 压缩 数据 





print "\n 读 入 压缩 数据 中 


".decode("utf8"), 
my_compresseddata=[] 
my_codeword_dictionary={} 
lzv_file = open(compressfn, 'rb') 
try: 

# 读 入 压缩 数据 的 长 度 


1zv_len,=struct.unpack("I",1zv_file.read(4) ) 
# 读 入 数据 解码 大 小 格式 


MY_FLAG_FMT, MY_FLAG_LEN=struct.unpack('1s1s',1zv_file.read(2) ) 
# 读 入 压缩 数据 





tmp_count=1 
while tmp_count<=1zv_len: 
# 读 入 压缩 数据 


temp_data =lzv_file.read(int(MY_FLAG_LEN)+1) 
temp_key, temp_later=struct.unpack(MY_FLAG_FMT+'1s', temp_data) 
my_compresseddata.append((temp_key, temp_later) ) 
tmp_count+=1 
print ".", 
print "\n 读 入 压缩 数据 成 功 


" ,decode("utf8") 
finally: 
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1zv_file.close( ) 
print "\n 解 压 中 





".decode("utf8"), 
# 解 压缩 


uncompress_str= 
# 解 码 后 的 数据 


uncompressdata=[] 
my_maxindex=0 
# 解 码 ， 同 时 重 构 码 表 


for (cwkey,cwlaster) in my_compresseddata: 
if cwkey==0: 
my_maxindex+=1 
my_codeword_dictionary[my_maxindex]=cwlaster 
uncompressdata.append(cwlaster ) 
else: 
my_maxindex+=1 
my_codeword_dictionary[my_maxindex]=my_codeword_dictionary[cwkey]+cwlaster 
uncompressdata.append(my_codeword_dictionary[cwkey] ) 
if cwlaster!='\0': 
uncompressdata.append(cwlaster ) 
print ".", 
uncompress_str=uncompress_str.join(uncompressdata) 
uncompressstr=uncompress_str 
print "An 将 解压 结果 写 入 文件 中 





..\n".decode("utf8") 
uncompress_file= open('uncompress.txt', 'w') 
try: 
uncompress_file.write(uncompressstr ) 
print "\n 解 压 成 功 ， 已 解压 到 


uncompress.txt! 


\n".decode("utf8") 
finally: 
uncompress_file.close() 





下 面 以 图 4-20 所 示 的 文本 为 例 进 行 压 绑 和 解压 缩 操作 。 
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RAA SBE ERO SEV) FRH) 
Python (REARS: /pa ð an/ SERE, Poo ‘ ne 编程 语 = Fe 
Al TOADS) paR 工 二 组 完 a ， 能 号 权 性 iis # 上 
dt evens BRR BEERS 
in 它 使 用 pane, R the i 
、Ruby、 ] 等 动态 语言 一 样 ，Py+ho HARE, PRADERA i. 七 经 
Pyth ae EH EIER ae AT ii EIE PaE ENE aller 之 类 的 
tho Al? sh 运行 ret nst er 之 类 
Some Una Veale le aR iE 程序 。 pre aiii 


ou hordi DA Frese Pyt ton， 该 解释 器 用 5 语言 编写 ， 是 一 个 由 社区 驱动 的 自由 软件 ， 目 前 由 Python 


A 牛 基金 全 Bit 


px noni i 令 式 程序 设计 、 面 向 对 象 程序 设计 、 函 数 式 编程 、 面 向 催 面 的 程序 设计 、 疙 型 编程 多 种 编 


van Rossum) 。1989 了 吉 多 
wok ae aie DSTR AE 
3 Ee pe Tee a). Ae 

EA a eae phon ae ere 


就 这 样 ，Python 在 i 际 上 ， 实现 是 在 sc 机 上 ， 可 以 说 ，Python 是 从 EC 发 展 起 
$, EBs [oes CH= SPE RR AIR ETM OR. Nae 
Unix she C va 


目前 吉 多 仍然 是 Python 的 主要 开发 者 ， 决 定 整个 Python 语言 的 发 展 方向 。Python 导 区 经 常 称呼 他 是 仁 荡 


1 
四 
z 
` 

| 





图 4 20 python. ext 


Be 调用 PyPy 运 行 4-2.py， yee ie 了 压缩 形成 压缩 文件 ， 再 打开 压缩 文件 解压 
将 文件 还 原 为 uncompress.txt。 运 行 结果 如 下 





$ pypy 4-2.py python.txt python , 工 ZV. 


find the Code word: C add Code word: CP index:9938 
index:9939de word:ython add Code word:ython 

find the Code word: 

^ add Code word: 

^ h index:9940 

find the Code word:ttp add Code word:ttp: index:9941 

find the Code word:// add Code word://e index:9942 

find the Code word:dit add Code word:ditr index:9943 

find the Code word:a. add Code word:a.o index:9944 生 成 压缩 数据 头 部 





将 压缩 数据 写 入 压缩 文件 中 


将 解压 结果 写 入 文件 中 





解压 成 功 ， 已 解压 到 
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uncompress.txt! 





然后 ， 查 看 一 下 解压 缩 效 果 ， 可 见解 压缩 成 功 ， 结 果 如 下 所 示 : 





$ cat uncompress .txt 











python seme, PABON | gy, PUNAN ; a gy 
HO ESAT EMI, SLIDE LEI. RANEE. KUAT m 
EUR SRNE, AGMA Se RIL ENIES. CEREREA, REE 
PEF SUIS, SIEA AREE REAA R EERE 
语句 块 。 





最 后 ， 运 行 1s 命 令 查看 算法 压缩 效果 ， 结 果 如 下 : 





$ dls <1 sh 
rw-rw-r-- 1 deep deep 5.0K Jul 1 20:55 5-2.py 
rw-rw-r-- 1 deep deep 30K Jul 1 20:55 python.lzv 
rw-rw-r-- 1 deep deep 36K Jul 1 20:57 python.txt 
rw-rw-r-- 1 deep deep 36K Jul 1 20:55 uncompress.txt 





从 上 面 显 示 的 结果 可 以 看 到 ， 未 压缩 前 为 3SKB， 压 缩 后 为 3OKB， 压 缩 效 果 不 太 明 
显 ，Lempel- -Ziv 算 法 对 于 大 的 文件 压缩 效果 葛 好 ， 以 sqlite 3.8.5 的 全 部 源码 为 例 ， 对 它 进 
行 压缩 ， 调 用 PyPy 再 次 运行 4-2.py 程 序 : 





$ pypy 4-2.py sqlitesrc.txt sqlitesrc.1zv 








程序 运行 完毕 后 ， 碍 看 压缩 效果 ， 结 果 如 下 : 





-rw-rw-r-- 1 deep deep 3.2M Jul 1 21:18 sqlitesrc.lzv 
-rw-rw-r-- 1 deep deep 5.2M Jul 1 21:16 sqlitesrc.txt 
-rw-rw-r-- 1 deep deep 5.2M Jul 1 21:18 uncompress .txt 没 压缩 前 为 


5.2M， 压 缩 后 为 





3.2M， 压 缩 效 果 较 明显 。 
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4.8 小 结 


目前 ， 机 器 学 习 主 要 依靠 算法 来 实现 ， 而 算法 依靠 程序 来 实现 ， 程 序 在 调试 完毕 
后 ， 就 需要 投入 到 实际 运行 阶段 ， 当 大 们 创造 性 地 将 * 生 产 环 E? 一 词 拓展 到 软件 工程 令 域 
后 ， 软件 运行 平台 的 定义 就 变 得 江汉 < 可 靠 和 安全 ， 它 特 指 软件 调试 完毕 并 正式 启用 AES 
际 运行 的 环境 。 软 件 生 Da 境 中 最 常用 的 是 Windows Server 和 Linux/UNIX 两 种 。 本 章 首先 
的 基本 命令 、Shell 脚 本 及 各 自 的 特性 ， 然 后 重点 介 ATE 
; 最 后 讲解 了 Linux 环 境 下 Vim 编 辑 器 的 使 用 及 相关 软件 工具 的 本 
译 ， 本 章 结尾 讲述 了 PyPy 编 译 器 ，PyPY 实 现 了 动态 编译 ， 提 供 了 JIT 编 译 
Be Ald SIN AE, 运 和 速度 比 CPytho ehh eae uf A 以 安全 地 运行 一 些 不 被 信任 的 代码 ， 
对 于 Python 程 序 来 说 ， 是 一 个 很 不 错 的 运行 平 
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思考 题 


在 家 中 找 一 台 闲 置 不 用 的 PC， 将 硬盘 格式 化 ， 然 后 下 载 Citrix Xenserver 免 费 版 和 
yas Server 2008 REAKIRI, HARA ASA RAR, FED, PURE TER 











(1) 安装 和 配置 好 Citrix Xenserver 5 XenCenter. 


o D 建立 至 少 两 台 虚 拟 服务 器 ， 一 台 用 于 安装 Windows Server 2008 R2， 一 台 用 于 
安装 Citrix Xenserver。 


(3) 在 其 中 一 台 虚 拟 服务 器 中 安装 CentOS 系 统 。 


(4) 在 CentOS 系 统 中 安装 好 R、PyPyY、NumPy 等 工具 软件 包 ， 安 装 完 毕 后 ， 测 试 一 
下 各 软件 包 是 否 能 正常 运行 相关 的 程序 。 


(5) 在 CentOS 系 统 中 编写 各 种 Linux 命 令 和 Shell 脚 本 进行 测试 和 学 习 。 
(6) 在 CentOS 系 统 中 打开 Vim 编 辑 器 ， 编 辑 以 下 文件 内 容 ， 并 存盘 为 R.txt。 


R is a language and environment for statistical computing and graphics.It is a GNU project 
which is similar to the S language and environment which was developed at Bell 
Laboratories(formerly AT&T, now Lucent Technologies)by John Chambers and colleagues.R 
can be considered as a different implementation of S.There are some important differences, but 
much code written for S runs unaltered under R. 























I 























R provides a wide variety of statistical(linear and nonlinear modelling, classical statistical 
tests, time-series analysis, classification, clustering, ...jand graphical techniques, and is 
highly extensible.The S language is often the vehicle of choice for research in statistical 
methodology, and R provides an Open Source route to participation in that activity. 


(7) 在 另 一 台 虚 拟 服务 器 中 安装 Windows Server 2008 R2. 


(8) 在 Windows Server 2008 R2 中 运行 Windows PowerShell 肢 本 ， 并 配置 好 R、 
Pypy、Python、NumPy 等 工具 软件 包 ， 并 测试 各 软件 包 是 否 能 正常 运行 相关 的 程序 。 
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第 三 部 分 “统计 分 析 实 战 篇 


在 终极 的 分 析 中 ， 一 切 知识 都 是 历史 ;， 在 抽象 的 意义 下 ， 一 切 科学 都 是 数学 ; 在 理 
性 的 基础 上 ， 所 有 的 判断 都 是 统计 。 





一 一 C.R. 劳 





wawa bbt. cam DENEA Crete 
































第 5 章 ”统计 分 析 基 础 


统计 学 用 于 研究 对 象 的 数量 性 、 总 体 性 、 变 异性 ， 上 有 具体 说 来 ， 就 是 通过 各 种 统计 指 
标 和 指标 体系 来 反映 对 象 总 体 的 规模 、 水 平 、 速 度 、 比 例 、 效 益 、 差 异 和 趋势 等 。 海 量 数 
n 学 的 理论 ， 统 计 学 是 理论 基础 之 一 ， 统 计 分 析 方 法 也 是 主要 的 数据 


机 器 学 习 济 i Se 机 器 学 习 应 用 的 统计 分 析 强 调 实际 应 用 效果 ， 检 
mug ee Le 述 预 测 与 实际 之 间 的 偏差 ; AI e aU 统计 学 善于 
对 数据 建立 模型 ， 并 对 模型 做 出 假设 。 由 此 可 见 ， 无 论 是 在 机 器 学 习 方 面 还 是 数据 分 析 领 
i 统计 分 析 理 论 都 有 着 举足轻重 的 地 位 。 


人 在 此 之 前 ， 请 各 位 读者 按照 
一 部 分 准备 篇 中 的 指导 ， 将 R 语 言 计 算 平 台 搭 建 好 
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5.1 数据 分 析 概 述 


随 着 数据 分 本 技术 的 不 断 肥 展 ， 数 据 分 析 的 定义 众 谱 纷 颖 。 作 者 稚 试 将 数据 分 析 定 
ek “数据 分 析 是 将 数据 转化 成 知识 ， RACH IMSL EAI R AUPE eR dE, 它 用 
适当 的 统计 方法 对 收集 来 的 大 量 数 据 进行 分 析 ， 发 现 数据 的 价值 ， 挖 掘 数据 的 表征 的 知 


识 。 











在 第 二 次 世界 大 战 中 ， Poli ae 在 Budiansky、 ooa n 所 著 的 
《Blackett’s | War) 讲述 了 一 个 由 数学 家 、 物 理学 家 组 成 的 团体 ， 通 过 对 数据 进行 收 
集 和 分 析 ， 使 用 数据 引导 战争 的 故事 。 该 团队 运用 数据 分 析 技术 对 付 纳 粹 潜艇 舰队 ， 并 把 
原始 雷 Se ede 与 实际 战争 结合 起 来 分 析 ， 从 而 使 海 岩 司令 部 的 飞 机 拥有 恰当 的 
飞行 路 线 ， SOI NIE. 同时 他 们 还 证 明了 一 个 论断 : 在 一 了 Ph 15~24 008 HBA 
中 ， 每 艘 船 有 2.3% 被 击 沉 的 概率 ， 而 在 RAT 被 击 沉 的 概率 只 有 1.1%。 


随 着 社会 的 发 展 ， 数据 库 己 经 深入 到 各 行 各 业 ， 成 为 了 社会 信息 记录 的 重要 载体 。 
解决 数据 的 查询 问题 ， 在 数据 库 发 展 的 mie SQL 语言 诞生 并 迅速 发 展 ， 目 前 它 仍然 
TEŽ E. FEK, “大 数据 ”一 词 被 炒 ivi, 大 数据 已 被 用 于 承载 数据 相关 的 
部 分 概念 ， 包 括 : 数据 海洋 ”社交 媒体 分 析 、 下 一 代 煞 据 管理 能 力 、 实 时 数据 等 。 各 
司 已 经 开始 理解 并 实践 探索 如 何 处 理 并 分 析 大量 从 息 。 


无 限 风 光 在 险峰 ， 人 才能 看 到 真正 的 风光 ， 既 然 如 此 ， 那 我 们 就 开始 
攀登 数据 分 析 这 座 “ 大 山 罚 
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5.2 ”数学 基础 

统计 分 析 建 立 在 概率 与 统计 的 数学 基础 之 上 ， 在 此 ， 先 简要 介绍 一 下 相关 数学 公 
To 
1. 概 率 


概率 是 数学 概率 六 aes 设 随 机 事件 的 样本 空间 为 8， 对 于 Q@ 中 的 每 一 个 事件 
A， 都 有 实 函 数 P(A)， 满 足 


非 负 性 : P(A)>0 
规范 性 : P(8)=1 

















n n 
$ Pa| aj 
可 加 性 :对 n 个 两 两 互 斥 事件 A1，...，An 有 : 三 1 i 


任意 一 个 满足 上 述 条 件 的 函数 p 都 可 以 作为 样本 xz 间 @ 的 概率 函数 ， 称 函数 值 P(A) 为 
8 中 事件 A ap 














”说 但 不 易 理解 ， 通 俗 来 说 ， re ON alae eee 是 对 随机 事 


上 面 的 定 
feet ete. 人 们 有 时候 会 问 : “明天 会 更 冷 吗 ? 今天 的 比赛 我 们 会 赢得 
军 吗 ? ”等 ， 他 们 是 在 关注 “天 气 变 冷 人 “比赛 取胜 ， :等 事件 发 生 的 机 会 。 在 KZE, 这 


坚 事 件 发 生 的 机 会 可 用 个 数 来 表示 ， 称 为 梳 率 。 概 来 的 主 缀 公式 如 下 
”” 设 事 件 A 发 生 的 概率 (可 能 性 ) 为 P(A)， 它 不 发 生 的 概率 (可 能 性 ) 为 P(A)， 它 们 之 
间 的 关系 为 : 




















P=1-P(4) 
n 个 事件 A1 ，...，An 发 生 的 概率 为 : 


n 


P U4 -F p14) - y P( A;A;)t ) (AAA H-D PdA) 
jel 


iz| lgigjsn l<igj¢ksn 
人 事件 A 在 另外 一 个 事件 B 已 经 发 生 条 件 下 的 发 生 概率 。 条 件 概 率 记 为 





一 、 


P〈AIB) ， 读 作 “ 在 B 条 件 下 A 的 概率 ”。 比 如 ,“ 如 果 明 天 更 冷 ， 需 要 多 穿 一 件 外 套 

吗 ? ”可 用 条 件 概率 描述 为 ， 假 设 明天 天 气 更 冷 为 事件 B， 多 穿 一 件 外 套 为 事件 A， 在 事件 

i 发 生 的 情况 下 ， 事 件 A《〈 多 穿 外 套 ) 发 生 的 概率 为 多 少 。 下 面 是 条 件 概率 
学 定 











个 样本 空 | 
选择 


在 同 PO eee Leh ae: 如 果 随 机 从 BQ 中选 出 的 一 个 元 素 属于 
be 那么 这 个 随机 3 概率 。 定 义 


JQ 
的 元 素 还 属于 A 的 概率 就 定义 为 在 B 的 前 提 下 A 的 条 件 概 率 。 


P(A|B)=|AnB\/B| 
再 将 上 式 中 的 分 子 、 分 母 都 除 以 |Q|， 得 到 





wawai bbt .cam DEE ATCHHE 
































PNB) 
P(B) 


其 中 ，P(AnB) 表 示 联 合 概率 ， 指 A 和 B 两 个 事件 共同 发 生 的 概率 ， 也 可 以 记 为 P(A， 
B) 或 P(AB)。 


条 件 概率 在 贝 叶 斯 统计 中 也 称 为 后 验 概 率 ， 即 在 考虑 和 给 出 相关 证 据 或 数据 后 所 得 
到 的 条 件 概 率 。 


现实 生活 中 ， 使 某 事 件 发 生 的 前 提 (条 件 概 率 中 的 “条 件 ”〉 可 能 不 止 一 个 。 比 如 : 
在 事件 B1 ，...，Bn 发 生 的 前 提 下 ， 事件 A 发 生 的 几率 是 多 少 ?将 其 定义 如 下 : 


P )-) PaB} PO) + PAB 


ee a a ae 能 根据 事件 发 生 的 概率 
推测 其 前 提出 现 的 概率 呢 ? 当然 可 以 ， 实 质 上 ， 这 就 是 R ON 原因 发 生 的 概率 。 比 
如 ， EET EAA SLRS RE 7 SAE CHEB, ) 还 是 路 上 车 辆 太 


多 以 致 拥塞 〈 事 件 B? ) ， 或 是 下 完 大 雨 道路 状况 很 差 (事件 B3 ) ? 
下 面 的 公式 定义 了 事件 A (结论) 发生 了 ， 事 件 Bk (原因 ) 发生 的 概率 ， 


PAB) PAPADA 


RBF PA BNP 


P(A B- 





























2. 概 率 分 布 
概率 分 布 简称 分 布 ， 是 数学 概率 论 的 一 个 概念 ， 广义 Cs žk 





yc 
H 
raul 
my 
it 
= 
Xt 
二 
es 
= 
> 
% 
BA 
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et 
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ng 
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>in 
Bc 
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ce 
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7 
本 加 
R 
ae 
3 
“te 
<2 
ge 





1) 随机 变量 分 布 。 随 机 变量 的 实质 函数 ， 其 数学 定义 为 : 设 函 数 X 对 于 概率 空 x 间 
其 中 函数 值 为 实数 ， 同 时 ， 每 一 个 实数 r 都 有 一 个 事件 集 
r 与 其 对 应 ， FHA {exec} EXKI 。 


量 
通俗 地 说 ,一 个 随机 试验 可 能 结果 (基本 事件 ) 的 全 体 组 成 
| ee 即 
基本 事件 都 有 实 轴 上 的 点 与 之 对 应 。 比 如 : 在 一 次 扔 人 硬 
为 随机 变量 X， XE DONS EL, 分 别 是 0 和 1。 


币 
如 果 随 机 变量 X 的 取 值 是 有 限 的 或 是 以 下 可 数 无 穷尽 的 值 : 
X={X1 ，X2 ，X3 ，.…:} 














和 
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EAEAN 下 限定 义 为 a， 上 限定 义 为 b， 则 分 布 概率 P(a<X<b) 的 定义 


则 称 X 为 离散 随机 变量 。 
如 果 X 由 全 部 实数 或 者 由 一 部 分 区 间 组 成 : 
又 ={Xla<X<b}，-oco<a<b<oo 
称 X 为 连续 随机 变量 ， 连 续 随 机 变量 的 值 是 不 可 数 并 无 穷尽 的 。 
役 P 为 概率 测度 ， | 则 函数 F(x)=P(X<x)(X ER) 称 et 























p(a<X<b)=P(X<b)-P(X<a) 
=F(b)-F(a) 
2) 离散 随机 变量 分 布 。 离 散 型 随机 变量 X 的 所 有 取 值 与 其 对 应 的 概率 间 的 关系 ， 称 








为 离散 型 随机 变量 X 的 概率 分 布 ， 或 称 为 概率 函数 。 可 用 列表 法 表示 离散 随机 变量 的 分 
布 ， 如 表 5-1 所 示 。 


表 5-1 离散 随机 变量 分 布 





表 
投掷 一 枚 仍 子 点 =“ HENE EEX ANB BOE LA A, BER A 


pOEN= + (I 1,2,,6) 


5-1 中 第 1 行 是 随机 变量 的 值 ， 第 2 行 是 每 个 值 出 现 的 概率 。 比 如 : 用 随机 变量 描述 





， 可 用 如 表 5-2 所 示 的 列表 描述 。 
表 5-2 般 子 点 数 的 概率 分 布 


RFAAI 


一 | 一 


肘子 点 数 工 出 现 的 概率 





离散 随机 变量 的 概率 分 布 具有 以 下 两 个 性 质 : 


p20 (k12, n 


) pel 
k=l 
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3) 0-1 分 布 。 伯 努 利 试验 是 只 有 两 种 可 能 结果 的 单 次 随机 试验 ， 即 随机 变量 又 只 有 两 
RE 











MEOR, 0-14) 45 LES AIS) Ee BY A 个 离散 型 概率 分 布 。 若 伯 努 利 斌 
验 成 功 ， 有 


P(X=k)=pk (1-p)IK k=0, 1 

By te Sat a ad 在 每 次 试验 中 只 ve ae 
的 结 两 种 结果 发 生 与 否 互相 对 立 ， 并 且 相 互 独立 与 其 他 各 次 试验 结果 无 关 。 
rea Le a 当 n=1 时 ， 二 项 分 布 就 是 0- Ui. 


如 果 随 机 变量 X 服 从 参数 为 和 p 的 二 项 分 布 ， 可 记 为 X~B(n，p)，n 次 试验 正好 得 到 k 
ARDEA AE BL 


PAREC p-p ED, 














NR 








jih, Cl- n! 














”kl(n-A)| 
5) Poisson 分 布 。Poisson 分 布 又 名 泊 松 分 布 ， 主 要 描述 单位 时 间 内 随机 事件 发 生 的 次 
数 的 概率 分 布 。 比 如 : 某 服务 设施 在 一 定时 间 内 收 到 的 服务 请 求 的 次 数 、 电 话 交 换 机 接 到 
呼叫 的 次 数 、 机 器 出 现 的 故障 次 数 等 。 ne 
Pie ct al 


若 X 服 从 参数 为 和 的 泊 松 分 布 ， 记 为 X~r()， 或 记 为 X~P(N)。 


在 了 解 了 概率 基础 知识 后 ， 再 来 看 看 连续 型 随机 变量 。 对 于 随机 变量 X， 若 存在 非 负 
可 积 函数 p(x)(- -00<X<+00)， 使 得 对 任意 实数 a， b(a<b), 都 有 


P(a<X < b)= | b p(x)dx 
UX ee Ue P(a<X<b)W 


累积 分 布 函数 概率 密度 函数 的 积分 ， 可 完整 描述 实 随机 变量 Xx 的 概率 分 布 )， 函 数 p(x) 
为 随机 变量 的 概率 密度 函数 ， PETE ae. 如 图 5-1 所 示 。 








leo 





aE 
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图 5-1 ”概率 密度 曲线 
概率 密度 函数 p(x) 有 如 下 性 质 : 
-p(x)20 


JE peel 


定 积分 的 几何 意义 为 : 对 于 一 个 给 定 的 正 实 值 函数 f(x)，f(x) 在 一 个 实数 区 间 [a，b] 上 


b 

| fix)dx 
ee REO MAb LIBR 00). Hasa xb 
成 的 曲 边 梯形 的 面积 值 ， 如 图 52 生 的 阴影 部 为 





图 5-2 ” 定 积分 的 几何 意义 


’ POO 


根据 图 5-2 所 示 的 定 积分 儿 何 意 义 ， 为 图 5-1 中 的 阴影 部 分 ， 其 中 p(x) 
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b 
“pa < b)= | p(x)dx 
为 概率 密度 函数 ， a | ， 因 此 ， 连 续 随 机 变量 X 在 a 与 
bas) FE ey ES ICE La bj 上 的 定 积分 。 
概率 质量 函数 和 概率 密度 函数 不 同 之 处 在 于 : Le TIRA L ES 
a 机 变量 在 确定 取 值 点 处 的 概率 ， 概 率 密度 函数 针对 连续 随 Ie ee 代 
NEEE 定 取 值 点 附近 可 能 性 的 概率 ， 


Kia 只 有 对 连续 随机 变量 的 概率 密度 函数 在 某 区 
na MCN Cove ee: 完成 概率 的 计算 。 
左 


a ae 连续 型 随机 变量 在 等 长 度 的 每 个 空间 上 取 值 的 概率 都 相同 ， 则 
称 X 服 从 [a IERS 匀 匀 分 布 ， 记 作 X~Ufa，b]， 它 的 概率 密度 了 函数 为 : 


| 
ho zg S'S) 


0 ,其他 

































































ES 














累积 分 布 函数 为 : 


see 


连续 型 均匀 分 布 函数 的 期 望 值 和 中 值 等 于 区 间 [a，b] 上 的 中 间 点 : 





方差 为 : 


) 指数 分 布 。 指 数 分 布 可 用 米 表示 独立 Oe 比如 旅客 进 机 场 
的 时 旧闻 隔 等 。 Pee eure 指数 减 小 ， 定 义 如 下 : 
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0 ， 其 他 
其 中 ，X 是 指 每 单位 时 间 发 生 该 事件 的 次 数 ， 和 >0。 
累积 分 布 函 数 定义 为 : 
0 , x0 
Fey ， 
l-e", 120 


8) 正 态 分 布 。 关 随机 变量 X 服 从 一 个 位 置 参数 为 h、 八 度 参数 为 c 的 概率 分 布 ， 记 
为 : XN 07 )， 服 从 正 态 分 布 的 随机 变量 的 概率 规律 为 : 与 h 越 邻近 的 值 的 概率 越 
大 ， 离 u 越 远 的 值 的 概率 越 小 ，o 越 小 ， 分 布 越 集中 在 hp 附近 ，o 越 大 ， 分 布 越 分 散 。 正 态 
分 布 的 概率 密度 函数 曲线 呈 钟 形 ， 又 经 常 被 称 为 钟 形 曲 线 ， 密 度 函 数 为 : 


| (x-11)" 
fi Fe ad BI 





累积 分 布 函数 为 : 





es etd 
z= 6 32 df 
aon ae J 
正 态 分布 密度 具有 如 下 性 质 : 
.曲线 关于 直线 x=h 对 称 。 


.3x 时 ，f09 取 得 最 大 信和 TO, 
-f(x) 有 渐 近 线 y=0。 





] 1 
HO, Ema 
| i270 . 
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is oe l (t-u)? 
二 
J- 2/270 
3. 随 机 变量 数字 特征 相关 公式 

ay Afi PRR 完全 刻画 了 随机 变量 取 取 值 的 概率 规律 ， 因 此 ， 在 实践 中 ， 我 们 需要 知道 随 
ee 比如 变 I SPREE, DAE Oy Nr ELAR ee A 
字 特 征 。 


1) 数学 期 望 。 数 学 期 望 反 映 了 随机 变量 的 平均 取 值 。 离 散 性 随机 变量 的 数学 期 望 是 
试验 中 每 次 可 能 结果 的 概率 乘 以 其 结果 的 总 和 ， 离 散 型 随机 变量 X 的 数学 期 望 为 ; 


EAF 2 rw 


k=l 


dx=1 








a 
Ty 
= 
2 
it 
和 
$ 
部 
& 
dt 
= 
iz 














连续 型 随机 变量 X 的 数学 期 望 为 : 
+% 


EX | ij 


) 方差。 Be Ne UN UN la 如 果 E[X] 是 随机 变量 X 的 期 
tt FRENE ， 划 随 杭 变量 X 或 者 分 布 E 的 放 ZN: 


VEE A- 


3) 协 方差 。 协 方差 表示 的 是 两 个 变量 的 总 体 的 误差 ， 如 果 两 个 变量 的 变化 趋势 一 
致 ， 也 就 是 说 ， 如 果 其 中 一 个 大 于 自身 的 期 望 信 ， 另 外 一 个 也 大 于 自身 的 期 望 值 ， 闭 么 机 
个 变量 之 间 的 协 方差 就 是 正 值 。 如 采 两 个 变量 的 变化 趋势 相反 ， 即 其 中 一 个 大 于 期 
望 值 ， 另 外 一 个 却 小 于 自身 的 期 望 值 ， 那 么 两 个 变量 之 间 的 协 方差 就 是 负 值 。 如 果 X 与 Y 
是 统计 独立 的 ， 那 么 二 者 之 间 的 协 方差 就 是 0。 

期 望 值 分 别 为 E(X)=h 与 E(Y)=v 的 两 个 实数 随机 变量 X 与 Y 之 间 的 协 方 差 ， 定 义 为 : 

cov(X, Y)=E[(X-p)(Y-v)] 

其 中 E 是 期 望 值 ， 也 可 表示 为 : 

cov(X, Y)=E(XY)-pVv 


SE 
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5.3 回归 分 析 


在 进行 回归 分 析 时 ， 通 常 利 用 数理 统计 中 的 回归 方法 ， 确 定 两 种 或 两 种 以 上 变量 间 
相互 依赖 的 定量 关系 。 





5.3.1 单 变量 线性 回归 














在 第 3 章 中 曾 谈 到 数据 的 线性 回归 ， 可 能 会 出 现 一 种 情况 ， 所 有 的 数据 点 都 准确 地 落 

在 了 回归 线 上 。 但 在 现实 中 ， 很 难 有 如 此 精确 的 模型 ， 比如 有 两 个 变量 x 和 y， 其 中 ，x-= 

eg a er ele le Secs edo) ay ee 
Ay SEY 


先 用 R 语 言 构造 数据 点 。 


























> y<-c(5,7,9,11,16, 20) 
> x<-c(1,2,3,4,7,9) 











在 建立 回归 线 之 前 ， 先 通过 R 语 言 的 plot 函 数 绘制 这 些 点 的 位 置 ， 观 察 分 布 规律 ， 如 
图 5-3 所 示 。 











> plot(x,y) 























图 5-3 称 为 散 点 图 ， 能 清晰 地 在 坐标 系 中 查看 数据 点 位 置 ， 横 轴 为 x， 纵 轴 为 y。 
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图 5-3” 散 点 图 
从 散 点 图 上 可 以 看 出 x 和 y 之 间 存 在 线性 关系 ， 可 以 表示 为 y=kx+b 这 种 一 oe 





不 过 想 要 画 一 条 直线 完全 穿 过 这 些 点 是 不 可 能 的 ， E ESEE shack HALE 
Bh. 这 个 距离 就 是 残 差 。 残 差 是 观测 值 与 预测 值 之 间 的 差 。 下 面 来 具体 看 一 


首先 ， 通 过 lsfit 函 数 计算 回归 直线 方程 的 斜率 和 截 距 以 及 残 差 。 ee 











> lsfit(x,y) 
$coefficients 
Intercept 

3.338028 1. ai 
$residuals 
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[1] -0.18309859 -0.02816901 0.12676056 0.28169014 -0.25352113 0.05633803 














上 面 代码 中 出 现 的 residuals 表 示 残 差 ， 残 差分 别 反映 了 这 些 点 与 直线 的 差异 ， 残 差 越 
小 越 好 。 残 差 直 接 反映 了 数据 点 到 回归 直线 的 距离 ，-0.18309859、-0.02816901、 
0.12676056、0.28169014、-0.25352113、0.05633803 分 别 是 当 x 值 为 [1，2，3，4，7，9] 
时 ， 用 y=1.845070x+3.338028 回 归 方 程 求 得 的 y 值 与 实际 y 值 [5，7，9，11，16，20] 的 差 
额 。 残 差 ei 的 计算 公式 为 : 





e=),-Hi(i T | Me a n) 


a 
3 
P 


其 中 ，y 表示 实际 值 ， J 上 为 按 回归 方程 预测 的 值 。 


例如 ， 将 x=2 代 入 该 例 中 的 回归 方程 ， 即 为 y=1.845070x2+3.338028， 计 算 可 得 到 y 的 
预测 值 ， 然 后 得 到 残 差 ， 如 下 所 示 : 


实际 y 值 -预测 y 值 s1.845070x2+3.338028-7s-0.02816901 
然后 ， 绘 制 散 点 图 及 回归 线 。 命 令 如 下 : 





>abline(lsfit(x,y)) 








刚才 将 2 代入 回归 方程 后 ， 计 算 1.845070x2+3.338028-7， 得 到 残 差 仅 为 -0.02816901， 
在 图 5-4 中 找到 回归 线 上 x=2 时 y 的 值 ， 能 看 出 ， 圆 圈 代 表 的 y 值 几乎 贴近 回归 线 。 再 看 
x=1、3、4、7、9 时 ， 回 归 线 对 应 的 y 值 都 比较 贴近 回归 线 ， 这 些 数据 点 紧 靠 在 回归 线 周 
围 ， 显 然 回 归 效 果 不 错 。 


残 差 不 应 该 有 茶 种 趋势 ， 若 残 差 中 出 现 一 种 明显 的 趋势 ， 则 意味 着 模型 不 适合 。 如 
图 5-4 所 示 的 残 差 分 布 较 均 义 ， 没 有 明显 的 趋势 显示 大 量 数据 点 偏离 了 回归 线 。 
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‘nN 
bo 


4 6 8 
X 


图 5-4” 散 点 图 及 回归 线 
事实 上 ， 也 可 以 使 用 Im 函数 进行 更 详细 的 回归 分 析 。 代 码 如 下 : 





> x<-c(1,2,3,4,7,9) 

> y<-c(5,7,9,11,16,20) 
> 1lm(y~x) ->xy 

> summary(xy) 


Call: 
lm(formula = y ~ x) 
Residuals: 
1 
-0.18310 -0.02817 0.12676 0.28169 -0.25352 0.05634 
Coefficients: 


Estimate Std. Error t value Pr(>|t|) 
(Intercept) 3.33803 0.16665 20.03 3.67e-05 *** 
X 1.84507 0.03227 57.17 5.60e-07 *** 


Signif. codes: ©“ 


Kk 
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1 
Residual standard error: 0.222 on 4 degrees of freedom 
Multiple R-squared: 0.9988, Adjusted R-squared: 0.9985 


F-statistic: 3269 on 1 and 4 DF, p-value: 5.604e-07 
>plot(x,y) 
>abline( lm(y~x)) 





在 上 述 代码 中 ，Coefficients 栏 的 内 容 如 下 。 

‘Estimate: 斜率 与 截 距 的 估计 值 。 

“Std.Error: 斜率 与 截 距 的 估计 标准 差 。 

‘tvalue: 斜率 与 截 距 的 假设 检验 的 t 值 。 

Pret): 与 显著 性 水 平 比较 ， 0 


在 Coefficients 每 行 的 最 后 一 列 有 星 号 ， 这 号 的 含义 表示 线性 关系 是 否 显著 : * 的 
数量 是 0~3，* 的 数量 越 多 则 线性 关系 越 显著 。 A 由， Coefficients 栏 (Pret) Ee 
《3.67e-05 以 及 5.60e-07) 后 标注 有 ***， 说 明 x 与 y 之 间 的 线性 关系 很 强 。 




















5.3.2 多 元 线性 回归 








多 元 性 回归 可 建立 多 个 自 变 量 和 应 变量 之 间 的 关系 ， 其 回归 模型 方程 一 般 为 : 

y=bọ +b1 x1 +b? xp +...+bk xk +e 

其 中 ，y 为 因 变 量 ，x] ，x2 ，.…，xk 为 自 变量 ，b0 为 常数 项 ，b] ，b? ，.…，xk 为 
回归 系数 。 


在 进行 多 元 线性 回归 分 析 时 ， 可 使 用 Im 函数 ， 在 上 节 例 子 的 基础 上 增加 一 个 自 变 量 
x2=[3，4，5，6，8，10]， 来 看 看 会 有 什么 效果 。 代 码 如 下 : 























y<-c(5,7,9,11,16, 20) 

x<-c(1,2,3,4,7,9) 

x2<-c(6,8,10,12,16, 20) 

1m(y~x+x2) ->xy2 

summary (xy2) 

Call: 

lm(formula = y ~ x + x2) 

Residuals: 
工 


> 
> 
> 
> 


V 


2 3 4 5 6 
-7.495e-16 9.195e-16 4.172e-17 -2.117e-16 1.839e-16 -1.839e-16 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(interesat) 1.000e+00 3.787e-15 2.640e+14 <2e-16 *** 
1.000e+00 1.359e-15 7.357e+14 <2e-16 *** 
5 5.000e-01 8.019e-16 6.236e+14 <2e-16 *** 


Signif. codes: ©“ 


KKK: 


0.001 ‘ 
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工 

Residual standard error: 7.121e-16 on 3 degrees of freedom 
Multiple R-squared: 1, Adjusted R-squared: 
F-statistic: 1.591e+32 on 2 and 3 DF, p-value: < 2.2e-16 








通过 上 述 回 归 分 析 ， 得 出 该 回归 方程 为 y=x+0.5xx2+1，Std.Error、t value. Pr(>|t) LA 
及 线性 相关 程度 等 指标 的 含义 同 单 变 量 线 性 回归 类 似 。 


5.3.3” 非 线性 回归 


非 线 性 回归 模型 较 多 ， 其 中 应 用 得 较 多 的 有 以 下 模型 : 
1) 多 项 式 模型 : 

y=Bo +B1 x+B2 x? +...+Bk xx +e 

2) 指数 模型 : 

y=aeX e 

3) FPR BRAD 
pat Day 
4) 成 长 曲线 模 : 
y=1/(Bo +B1 e™* +e) 


实际 应 用 中 ， 除 上 述 模型 外 ， 还 有 很 多 非 线 性 回归 模型 ， 但 无 论 是 哪 种 非 线性 回归 
模型 ， 最 后 都 可 以 通过 变量 变换 转化 为 线性 模型 ， 从 而 用 最 小 二 乘法 进行 回归 分 析 。 下 面 
以 y=Bo +B1 ebx +e 模 型 为 例 讲解 非 线性 回归 的 方法 。 


9 准备 回归 分 析 用 数据 (假设 已 预先 知道 回归 方程 ， 通 过 回归 方程 精确 计算 y 























>x<-c(1,2,3,4,7,8,9) 
>y <- 100 + 10 * exp(x / 2) + rnorm(x) 
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2) 使 用 R 语 言 的 ns 函数 ， 应 用 最 小 二 乘法 原理 ， 实 现 非 线性 回归 分 析 。 











>nimod <- nls(y ~ Const + A * exp(B * x)) 








3) 使 用 summary 函 数 分 析 拟 合 结果 。 





> summary(nlmod) 
Formula: y ~ Const + A * exp(B * x) 
Parameters: 

Estimate Std. Error t value Pr(>|t|) 
Const 1.001e+02 8.377e-01 119.4 2.95e-08 *** 
A 1.006e+01 1.759e-01 57.2 5.59e-07 *** 
B 4.995e-01 1.925e-03 259.5 1.32e-09 *** 


Signif. codes: © <“ 


1 
Residual standard error: 1.1 on 4 degrees of freedom 
Number of iterations to convergence: 8 
Achieved convergence tolerance: 4.887e-07 
> 





其 中 ， 在 Parameters 栏 ， 对 方程 涉及 的 以 下 3 个 参数 进行 了 预测 : 

Bo =Const=1.001e+02 

By =A=1.006e+01 

b=B=4.995e-01 

将 以 上 参数 与 程序 中 y 值 的 生成 规则 进行 对 比 ， 可 以 看 见 ， 拟 合 效果 还 是 不 错 的 。 

前 面 为 解释 非 线性 回归 过 程 ， 将 x 代 入 参数 确定 的 非 线性 回归 方程 计算 y 值 ， 然 后 ， 
依据 x 和 y 推 出 非 线 性 回归 方程 的 参数 。 但 实践 应 用 中 ， 往往 需要 依据 一 组 x 值 和 值 ， 推 导 


非 线性 方程 的 参数 ， 因 此 ， 尝 试 通过 morm 函 数 产 生 较 小 的 随机 数 ， 加 在 精确 计算 的 y 什 
上 ， 这 和 样 计算 后 形成 的 非 线 位 回归 模型 拥有 一 定 的 残 差 ， 较 接近 黄 实 环境 。 








>y <- 100 + 10 * exp(x / 2) + rnorm(x) 
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) 绘制 拟 合 效果 图 。 代 码 如 下 : 





>plot(x,y, main = "nls(o)") 
>curve(100 + 10 * exp(x / 2), col = 4, add = TRUE) 
>lines(x, predict(nlmod), col = 2, types! b') 





如 图 5-5 所 未 为 拟 合 效果 图 ， 显示 出 拟 合 效果 不 错 。 其 中 ， 偏 上 的 线 为 预测 的 回归 
线 ， 偏 下 的 线 为 实际 方程 。 回 归 在 [4，7] 的 区 间 内 拟 合 效果 较 差 ， 这 是 样本 数据 太 少 的 原 
对， 因为 样本 数据 仅 有 9 个 。 


参与 拟 合 的 样本 数据 量 决 定 了 拟 合 效果 的 好 坏 。 可 以 加 大 自 变 量 的 数量 ， 重 新 应 用 
nls 函 数 进行 拟 合 ， 来 看 看 效果 如 何 。 代 码 如 下 ; 























>x<-seq(1,10,0.1) 

>y <- 100 + 10 * exp(x / 2) + rnorm(x) 

>nimod <- nls(y ~ Const + A * exp(B * x)) 
>plot(x,y, main = "nls(o)") 

>curve(100 + 10 * exp(x / 2), col = 4, add = TRUE) 
>lines(x, predict(nlmod), col = 2) 








如 图 5-6 所 示 是 相应 的 效果 图 ， 从 中 可 以 看 出 ， 回 归 线 与 实际 方程 线 很 接近 。 


不过， 图 5-6 所 示 的 回归 效果 仍 存 在 一 个 问题 ， 就 是 样本 过 于 集中 在 回归 线 上 了 ， 为 
使 回归 分 析 更 接近 真实 应 用 环境 ， 需 要 继续 加 大 随机 数 的 范围 ， 增 加 非 线性 回归 的 残 差 ， 
使 样本 点 散布 在 回归 线 周 围 。 
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图 5-5” 拟 合 效果 图 
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图 5-6” 非 线性 回归 效果 





>x<-seq(1,10,0.1) 

>y <- 100 + 10 * exp(x / 2) + rnorm 

(x) *100 

>nimod <- nls(y ~ Const + A * exp(B * x)) 
>plot(x,y, main = "nls(o)") 

>curve(100 + 10 * exp(x / 2), col = 4, add = TRUE) 
>lines(x, predict(nlmod), col = 2) 








从 图 5-7 可 以 看 出 ， 样本 点 虽然 没有 集中 在 回归 线 上 ， 而 是 散落 在 回归 线 周围 的 区 
域 ， 产 生 的 残 差 较 大 ， 但 样本 点 的 整体 走向 与 回归 线 一 致 ， 此 外 ， 回 归 线 与 实际 方程 这 两 
ROSY Bae 说 明 回归 2 分 析 较 准确 地 领 测 吊 回 归 方 程 的 各 个 参数 。 因此 ， 从 整体 上 观 
察 ， 拟 合 效果 不 错 ， 回 归 模 型 适当 。 
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图 5-7 接近 真实 环境 的 非 线 性 回归 
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5.4 数据 分 析 基 础 
5.4.1 区间 频 率 分 布 


下 面 是 美国 地 震 台 网 公布 的 全 球 2013 年 5 月 20 日 22 点 到 24 点 发 生 的 所 有 地 震 的 震级 。 


时 间 展 级 
2013-05-20T23:57:12.000+00:00 1.6 
2013-05-20T23:57:12.000+00:00 0.9 
2013-05-20T23:52:59.000+00:00 2.1 
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2013-05-20T23:49:15.100+00:00 D2 


2013-05-20T23:46:36.000+00:00 2.3 
2013-05-20T23:44:07.000+00:00 LL 
2013-05-20T23:38:17.000+00:00 1.3 
2013-05-20T23:34:12.400+00:00 1.6 
2013-05-20T23:33:43.440+00:00 4.7 
2013-05-20T23:25:20.500+00:00 1.2 
2013-05-20T23:23:35.100+00:00 0.9 
2013-05-20T23:07:34.960+00:00 4.7 
2013-05-20T23:06:42.800+00:00 0.6 
2013-05-20T23:01:25.480+00:00 5.3 
2013-05-20T22:59:58.000+00:00 Ll 
2013-05-20T22:51:47.120+00:00 4.8 
2013-05-20T22:48:40.570+00:00 4 

2013-05-20T22:48:18.350+00:00 4.2 
2013-05-20T22:36:27.310+00:00 4.6 
2013-05-20T22:13:36.000+00:00 1.3 
2013-05-20T22:13:09.000+00:00 2.1 
2013-05-20T22:10:47.000+00:00 1 
2013-05-20T22:09:33.600+00:00 3 





ag 下 面 就 以 上 面 的 数据 为 例 ， 来 讲述 区 间 频 率 分 布 。 现 在 的 任务 是 完成 地 震 震 级 分 


1) 将 地 震 震 级 数据 放 入 一 个 向 量 中 。 代 码 如 下 : 


,0.9,2.1,2.2,2.3,1.7,1.3,1.6,4.7,1.2,0.9,4.7,0.6,5.3,1.1,4.8,4,4.2, 
1.5,3 
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2.2 2.3 1.7 1.3 1.6 4.7 1.2 0.9 4.7 0.6 5.3 1.1 4.8 4.0 4.2 
1.5 3.0 





2) 使 用 cut 函 数 将 震级 分 成 5 个 区 间 ， 并 建立 因子 。 代 码 如 下 : 








>factor(cut(mag,5) ) 
[1] (1.54,2.48] (0.595,1.54] (1.54,2.48] (1.54,2.48] (1.54,2.48] 
[6] (1.54,2.48] (0.595,1.54] (1.54,2.48] (4.36,5.3] (0.595,1.54] 
[11] (0.595,1.54] (4.36,5.3] (0.595,1.54] (4.36,5.3] (0.595,1.54] 
[16] (4.36,5.3] (3.42,4.36] (3.42,4.36] (4.36,5.3] (0.595,1.54] 
[21] (1.54,2.48] (0.595,1.54] (2.48,3.42] 
Levels: (0.595,1.54] (1.54,2.48] (2.48,3.42] (3.42,4.36] (4.36,5.3] 





3) 统计 因子 频率 。 代 码 如 下 : 





>factor(cut(mag,5))->magfactor 

> table(magfactor) 

magfactor 

(0.595,1.54] (1.54,2.48] (2.48,3.42] (3.42,4.36] (4.36,5.3] 
8 7 1 2 5 





可 以 看 出 2013 年 5 月 20 日 22 点 到 24 点 期 间 ， 全 球 发 生 的 地 震 在 (0.595，1.54] 内 有 8 起 ， 
在 (1.54，2.48] 内 有 7 起 等 。 


4) 绘制 直方 图 。 在 R 语 言 中 ， 可 使 用 hist 函 数 绘制 直方 图 。 








> hist(mag, breaks=5) 





绘制 结果 如 图 5-8 所 示 。 
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图 5-8 直方 图 


5.4.2 ”数据 直方 图 











直方 图 义 称 柱状 图 、 
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1) 用 R 语 言 的 read. table BOA 震 震 级 的 文件 〈read.table 方 法 可 读 取 文件 ， 生 成 








a 并 且 ， 通 过 指定 header=TRUE 参 数 ， 可 将 文件 头 作为 字段 变量 





> read.table("eqweek.csv", header=TRUE, sep=",")->earthquake 





2) 显示 读 取 的 地 震 数据 (2013.5.14~2013.5.20) ， 验 证 读 取 内 容 是 否 完整 。 








> earthquake DateTime.Latitude.Longitude.Depth.Magnitude.MagType.NbStations.Gap.Distance.RMS 
1 2013-05- 
20T23:57:12.000+00:00, 63.45, -148.291,5.5,1.6,Ml,,,,0.8, ak, ak10720946, 1.3691E+12 

2 2013-05-20T23:52:59.000+00:00, 61.337, -152.069,81.4,2.1,Ml,,,, 

1.15,ak, ak10720941, 1.36909E+12 

3 2013-05-20T23:49:15.100+00:00, 19.99, -155.426,38.2,2.2,Md, ,133,0.1,0. 

11, hv, hv60501711, 1.3691E+12 

4 2013-05-20T23:46:36.000+00:00, 60.498, -142.974,4.2,2.3,Ml,,,, 

0.43, ak, ak10720934, 1.36909E+12 





分 布 





人 观察 从 2013 年 5 月 14 日 至 2013 年 5 月 20 日 这 周 内 全 球 地 震 震 级 的 


3) 
情况 。 代 码 如 下 








> hist(earthquake$Magnitude, 5) 





其 
论 : 震级 在 1~2 级 的 地 震 发 生 频 率 最 高 ， 因为 在 x 为 1-2 蛙 ? eee oa 2~3 级 
体高 度 仅 次 于 1v2 级 ， ee 


























生成 的 直方 图 如 图 5-9 所 示 。 其 中 横 轴 是 震级 ， 纵 轴 是 频率 分 析 。 通 过 观察 可 得 出 结 




















ray 
imap 


第 二 ;发 生 频 率 最 小 的 是 6~7 级 的 地 震 ， 柱 体高 度 很 


小 。 总 体 来 说 ，1~3 级 和 4~5 级 的 地 震 发 生 较 频繁 。 
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R R Graphics: Device 2 (ACTIVE) 


Histogram of earthquake$Magnitude 
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earthquake$Magnitude 





图 5-9 ”震级 分 布 直方 图 


数据 直方 图 能 直观 地 说 明 数 据 在 每 个 区 间 的 分 布 频率 ， 但 如 果 需 要 精确 的 分 布 频 
率 ， 则 需要 使 用 R 语 言 的 因子 对 象 。 先 通过 cut 函 数 将 数据 分 组 ， 然 后 通过 factor() 函 数 生成 


因子 对 象 ， 最 后 使 用 table 函 数 分 析 频 率 。 代 码 如 下 : 


Az 
ri 8 





> table(factor(cut(earthquake$Magnitude, 5) ) ) 
(0.995,2.1] (2.1,3.2] (3.2,4.3] (4.3,5.4] (5.4,6.51] 
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693 200 46 126 10 











观察 上 述 结 果 的 最 后 两 行 ， 每 个 区 间 的 震级 频率 一 目 了 然 ，(0.995，2.1] 区 间 的 震级 
频率 是 693 次 ，(2.1，3.2] 区 间 的 震级 频率 是 200 次 等 。 


5.43 ”数据 散 点 图 





数据 散 点 图 是 指数 据点 在 直角 坐标 系 平面 上 的 分 布 图 ， i A 
象 的 测量 值 与 可 能 原因 因素 之 间 的 关系 ， 具 有 快捷 、 易 于 交流 和 易于 理解 的 特点 


ST eR 组 点 ， 值 由 点 
在 图 表 中 的 位 置 表示 ， 类 别 由 图 表 中 的 不 同 标记 表示 。 通 党 | 表示 现象 值 Y， 用 水 
| 表示 可 能 有 关系 的 原因 因素 X， 通 过 对 其 观察 分 析 ， ACH BAC WIC 
系 。 此 外 ， 依 据 散 点 图 可 选择 函数 对 数据 点 进行 拟 合 ， 建 立 回归 模型 。 


下 面 继 续 以 全 球 一 周 地 震 数据 为 例 ， 来 讲解 数据 散 点 图 。 
1) 将 变量 放 到 搜索 路 径 上 。 代 码 如 下 : 





























<3 




















a 




















> attach(earthquake) 





2) 分 析 地 展 震 深 。 代 码 如 下 : 





> summary(Depth) 
Min. 1st Qu. Median Mean 3rd Qu Ma NA's 
0.10 5.80 12.15 30.82 38 . 00 630. 76 39 








FE LIRR, Mnai eva ee MEL, Maxi il, Median i220, 
a 下 地 震 震 深 与 震级 的 关系 ， 如 图 5-10 
ZN o 


在 图 5-10 中 ，De eptb h 是 震 深 ，Magnitude 是 震级 ， 从 表面 上 看 一 
之 间 没 有 关系 ， 但 仔细 观察 这 个 图 ， 可 发 现 一 个 有 趣 的 结 采 : 在 这 一 周 里 当 震 深 超 过 300 
后 ， 震 级 都 接近 5 或 在 5 以 上 ， 而 在 300 以 内 时 ， 震 级 并 不 确定 。 


3) 对 震 深 的 直方 图 进行 分 析 。 和 驳 来 绘制 相关 直方 图 ， 代 码 如 下 : 

















>hist(Depth) 





绘制 的 图 形 如 图 5-11 所 示 。 
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震 深 与 震级 关系 的 散 点 图 


15-10 
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图 5-11 震 深 的 直方 图 
”观察 图 5-11 可 得 出 结论 : 这 个 星期 内 发 生 的 绝 大 部 分 地 震 的 震 深 在 100 以 内 ， 这 个 区 
间 的 代表 频率 的 柱 体高 度 最 高 ， 而 发 生 最 少 的 350~550 段 和 250~300 段 ， 这 两 个 区 间 的 柱 
体 几乎 贴近 X 轴 ， 高 度 很 小 。 
4) 分 析 带 数据 点 的 震级 直方 图 。 为 提高 直方 图 的 表示 外 eH): 有 时 需要 在 直方 图 中 显 
eoo 通过 观察 这 些 数据 点 的 数量 ， AL, 点 在 每 个 区 间 的 分 布 密集 程 
过 R 语 言 的 mg 函数 绘 | 数据 点 。 代码 如 下 





"Th 


a 





> hist(Magnitude) 
> rug(Magnitude) 





绘制 出 的 图 形 如 图 5-12 所 示 。 
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仔细 观察 图 5-12 能 看 出 : 在 3~4 震 级 区 域内 ， 数 据点 分 布 并 不 均匀 ， 在 的 
， 数 据 k, GE A SEA Op Aa CE a Ta FIKR; Eb, E56 EZ ene 
ioe, BRATS, 这 说 明 3~4 级 或 5~6 级 震级 范围 内 ， 大 部 分 地 震 的 震级 不 是 非 
rT iy |H. 


这 些 只 是 根据 一 个 星期 的 数据 进行 分 析 得 到 的 结果 ， 不 一 定 就 代表 真正 的 答案 。 答 
案 要 通过 分 析 大 量 数据 以 及 数据 各 个 指标 关系 ， 同 时 结合 地 球 物 理 知识 的 研究 才能 得 出 。 
A 


由 于 图 形 直观 性 很 强 ， 浅显 且 易 于 理解 ， 因 此 在 数据 分 析 中 ， 经 常 需要 绘制 图 表 
直线 。 前 面 已 经 讲解 过 绘图 的 方法 ， 在 此 补充 一 下 画 线 方法 ， ER EET 用 lin esha ME 
成 绘制 直线 。 比如 要 绘制 一 个 (10, 40) 、 (20, 50) 、 (30, 60) 的 散 点 图 ， 并 将 点 连 


成 线 ， 可 如 下 编写 代码 : 


ae 






































~ 





> plot(c(10,20,30),c(40,50,60)) 
> lines(c(10,20,30),c(40,50,60)) 





绘制 出 的 散 点 及 直线 如 图 5-13 所 示 。 
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图 5-12 ”和 带 数 据点 的 震级 直方 图 
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RR R Graphics: Device 2 (ACTIVE) 
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图 5-13” 散 点 及 直线 图 
5.4.4 五 分 位 数 


分 位 数 是 挤 述 数据 位 置 的 一 种 方法 ， 它 将 一 个 随机 变量 的 分 布 范 围 分 为 儿 个 等 份 的 
数值 点 。 分 位 数 法 被 用 来 识别 茶 临 IME, 一 般 情 况 下 可 使 用 分 位 数 (或 分 位 点 ) 描述 小 于 
inte 在 界 值 的 观测 值 数量 占 整个 数据 中 的 某 个 具体 比率 “小 于 等 于 该 值 的 数据 为 一 给 
KE 2 é 


> 


用 的 分 位 数 有 中 位 数 、 四 分 位 数 、 五 分 位 数 、 ARE 百 分 位 数 等 ， 其 中 ， 中 
位 数 将 数据 分 布 范 围 分 成 了 相等 的 两 个 部 分 。 此 外 ， 我 们 还 能 将 数据 分 布 范 围 分 成 更 小 尺 
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的 分 割 线 ， 四 分 位 数 将 一 个 分 布 分 成 4 等 份 ， 而 五 分 位 数 将 其 分 成 5 等 份 ， 十 分 位 数 将 其 
成 10 等 份 ， 百 分 位 数 将 其 分 成 100 等 份 等 。 
分 析 的 常用 方法 ， 在 R 语 言 中 ， 可 使 用 fivenum 函 数 计算 五 分 位 数 


(fivenum ef 2¢ 42 1 [A] LAF Bcd: minimum, lower-hinge, median, upper-hinge, 


maximum) 。 下 面 用 fivenum 函 数 对 地 震 数据 进行 分 析 。 代 码 如 下 : 








> fivenum(Magnitude) 
[1] 1.0 1.3 1.7 2.5 6.5 








分 析 结 果 表 明 ， 震 级 最 小 为 1.0， > 5， 中 位 数 为 1.7， 通 过 1.7 将 一 组 数据 分 为 
上 下 两 组 ， 然 后 再 计算 上 下 两 组 的 中 位 数 1.3 与 2.5。 








5.4.5 ”累积 分 布 函数 


累积 分 布 函数 完整 地 描述 出 了 一 个 实数 随机 变量 X 的 概率 
分 ， SUREN EAN MEAM BRP TA T 
foo=PCXsx)。 我 们 计算 一 下 嘎 级 的 宗 积 分 布 。 


1) 通过 R 语 言 的 ecdf 函 数 计算 累积 分 


密度 函数 的 积 
IE 数 信 有 的 概率 P(X2x); 即 








>ecdf (Magnitude) ->mag_ecdf 

>mag_ecdf 

Empirical CDF 

Call: ecdf (Magnitude) 

x[1:50] = 1, iiy 142). aac 6, 6.5 








2) plot R ARH RAMA, MRA RRA o 





> plot(mag_ecdf,do.points=FALSE, verticals=TRUE) 





绘制 出 的 图 形 如 图 5-14 所 示 。 
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$ R Graphics: Device 2 (ACTIVE) 


ecdf(Magnitude) 





图 5-14 ”震级 累积 ewer 


图 5-14 的 x 轴 是 震级 ，y 轴 是 累积 分 布 概率 ， 当 宕 级 升 高 时 ， 系 积分 布 概 率 也 随 之 所 
高 ， 这 个 趋势 很 正常 ， 因为 累积 分 布 概率 是 NFA TRA RANE, 比如 : 从 图 5- 
14 观 察 ， 发 生地 震 的 震级 在 3 以 内 的 概率 接近 80%， 震 级 在 2 以 内 的 概率 接近 60%。 





5.4.6 ” 核 密度 估计 


1. 核 密度 原理 
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利用 前 面 所 说 的 直方 图 估计 数据 分 布 密度 是 有 局 限 性 的 ， 因 为 数据 分 布 的 密度 函数 
是 不 平滑 的 ， 它 受 子 区 间 宽 度 影响 较 大 ， 当 数据 维 数 超 at 维 时 就 有 局 限 。 
` 至 于 


Py a a 函数 〈 不 至 于 混 消 时 可 简称 为 密度 
俩 定 



































函数 ) 个 描述 这 个 随机 变量 的 输出 值 ， 在 茶 个 确定 的 取 值 点 附近 的 可 能 性 的 函数 ， 而 
随机 变量 落 在 某 个 区 域 之 内 的 概率 为 概率 密度 函数 在 这 个 区 域 上 的 积分 ， 当 概率 密度 函数 
存在 的 时 候 ， 累 积分 布 函数 是 概率 密度 函数 的 积分 。 








如 何 由 给 定 样 本 点 集合 求解 随机 变 


mB 
z 
$ 
= 
N 
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? 解决 这 一 问题 的 方 法 包括 参 


si AIF Sh 分数 合计 中 党 ar Ee SURO ONE 
À % ET en SL. 但 参数 模型 的 


的 性 态 ， 如 线性 Ee 

i 人 模型 之 间 常 常 差距， 于 是 Rosenblatt 和 Parzen 提 出 了 
核 密度 估计 方法 ， 它 可 估计 未 知 的 密度 函 a ce ieee 
: 假设 样本 数据 值 在 D 维 空间 服从 一 个 未 知 的 概率 密度 函数 ， 那 么 在 区 域 R 内 的 概率 
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an 








P=| ap 


上 起 中 了 是 每 个 柑 本 数据 点 落 入 区 域 R 的 概率 ， 假 设 在 N 个 样本 数 据点 中 ， 有 K 个 洲 
入 了 区 域 R， 那 么 就 应 该 服从 二 项 分 布 。 公 式 如 下 
M 


FD 


在 N 的 样本 数据 很 大 时 ，K 约 等 于 NxP。 而 另 一 方面 ， 假 设 区域 R 足 够 小 ， 那 么 P 约 等 
于 p(x)xy 〈V 为 区 域 R 的 空间 ) 。 


于 是 ， 结 合 两 个 不 等 式 子 可 得 : 





Bin(hl 





ri die 


i= (5-1) 


根据 上 式 ， 来 估算 p(x) 就 有 两 种 方式 第 一 ，K 不 变 ， 通 过 决定 区 域 V 的 大 小 来 估算 
密度 函数 ， 采用 K-nearer- neighbou ur 方法 ; 第 二 ，V 不 变 ， ERLE ee aa 
数 ， 采 用 kernel 方 法 。 这 里 选择 第 二 种 方式 ， 假 设 区 域 R 是 一 个 以 x 为 中 心 、 边 长 为 h 的 极 
小 立方 体 〈 也 就 是 V 不 变 ) re X kernel i 2 (数据 维 数 为 D 维 ， KAROE 点 落 入 小 立方 
体 时 ， 函 数值 为 1， 其 他 情况 下 为 0) 的 公式 如 下 : 

















0, 其他 


落 入 立方 体 数 据点 的 总 个 数 K 就 可 以 表示 为 : 
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N 
DH (5.2) 
n=| 1 


根据 式 (5-1) ， 把 式 (5-2) 代入 式 (5-1) 中 ， 可 得 : 


上 式 中 ， V=hD o 
2. 核 密度 计算 


Riga saa era sta 了 核 密 度 估计 ， density 函 数 默认 情 况 下 在 512 个 点 上 估计 
密度 值 。 下 面 就 用 它 来 计算 ee 首先 ， 指 定 hist 函 数 的 prob 参 
数 为 TRUE， 绘 制 核 密度 直方 图 ; 然后 通过 lines 函 数 ， 绘 制 核 密度 曲线 。 代 码 如 下 : 











> hist(Magnitude,prob=TRUE) 
> lines(density(Magnitude)) 





会 制 出 的 核 密度 如 图 5-15 所 示 ， 图 中 曲线 就 是 核 密 度 曲线 。 
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Histogram of Magnitude 





图 5-15 “震级 核 密度 


want call bbt .cam OA A TAE 


5.5 数据 分 布 分 析 


et 这里 以 老年 常见 病 数据 为 例 ， 来 讲解 数据 分 布 的 分 析 。 如 表 5-3 所 示 是 一 些 老年 常见 


表 5-3 老年 常见 病 数据 








a A ARER E ER 绘制 年 





> read.table("aged_patients.csv", header=TRUE, sep=",'")->agedpatients 
> hist(agedpatients$‘Fit 


) 


绘制 出 的 年 龄 分 布 直方 图 如 图 5-16 所 示 。 
2) 对 年 龄 进行 核 密度 估计 ， 并 绘制 核 密 度 曲 线 。 








> hist(agedpatientsg$ 年 龄 


, Prob=TRUE ) 
> lines(density(agedpatients$‘Fiit 


)) 


绘制 出 的 核 密度 曲线 ， 如 图 5-17 所 示 。 
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Histogram of agedpatients$4F $ 
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图 5-16 ”年龄 分 布 直 方 图 
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Histogram of agedpatients$4F # 


GD 
OO 
口 
wD 
O 
© 
口 
oo 
oO 
(=) 
N 
o 
(= 


0.00 0.01 





图 5-17 年 龄 的 核 密度 曲线 


3) 通过 i ee S 和 最 大 年 龄 ， 通 过 mean 函 数 分 析 年 
龄 的 平均 值 ， 通 过 var 函 数 计算 年 龄 的 方差 





ba 


> min(agedpatients$‘F 





) 
[1] 60 
> max(agedpatients$‘F 


ba 





) 
[1] 90 
> mean(agedpatients$4 i$ 





4A 


) 
[1] 69.09839 
> var(agedpatients$‘F 


ba 





) 
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[1] 38.60801 





述 分 析 可 得 出 一 个 结论 : 63~72 岁 这 个 阶段 的 老人 必须 要 注意 身体 ， 坚 持 运 动 ， 
pee tbe 这 个 年 龄 段 是 急 腹 症 和 肿瘤 两 种 老年 病 的 高 发 期 ， 发 生 概 率 较 大 。 从 60 到 90 岁 
的 老人 都 有 可 能 患 上 这 两 种 老年 病 ， 患 者 的 平均 年 龄 是 69 岁 。 标 准 差 比较 大 ， 看 来 这 两 种 
老年 病 在 老人 的 各 个 年 龄 段 中 发 生得 比较 普 裔 。 


4) 按 年 龄 分 类 汇总 肿瘤 和 急 腹 症 的 数量 。 代 码 如 下 : 

















> attach(agedpatients) 
> tapply (肿瘤 


,年龄 


, SUM) 

60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 87 88 90 
19 26 26 28 21 35 37 22 21 23 29 26 31 16 19 12 13 19 8 5 4 3 7 2 1 1 0 3 1 
> tapply( 急 腹 症 


/年龄 


, sum) 
60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 87 88 90 
2 .0 0 2 0 0 1 O 1 2 4 1 1 0 3 1 2 2 0 2 0 1 0 1 0 1 2 0 0 





5) 分 年 龄 统计 肿瘤 患者 的 数量 。 代 码 如 下 : 








> table(factor(cut(agedpatients$*iit 


[agedpatients$ 肿 瘤 


==1],5))) 
(60,66] (66,72] (72 78] (78, 84] fa 90] 
155 158 








6) 分 年 龄 统计 和 急 腹 症 患者 的 数量 。 代 码 如 下 : 








> table(factor(cut(agedpatients$*iit 
[agedpatients$ 急 腹 症 


==1],5))) 
(60,65.4] (65.4,70.8] (70.8,76.2] (76.2,81.6] (81.6,87] 
4 8 8 5 4 





上 述 分 析 结 果 表 明 : 总 腹 症 患 疹 企 65 岁 到 77 岁 守 间 发 病 率 软 噩 ， 其 中 70 岁 时 发 病 率 
,而 肪 瘤 患者 在 60 岁 到 72 岁 之 间 发 病 率 较 高 ，} 其 中 69 岁 时 发 病 率 最 高 。 











Dlr 


最 下 
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5.6 ”小结 


本 章 对 统计 学 基础 进行 阐述 ， 介 绍 了 数据 分 析 的 概念 、 发 展 以 及 需要 的 基础 知识 ， 
同时 从 线性 回归 和 非 线性 回归 两 个 方面 讲述 了 数据 分 析 基 本 方法 一 回归 分 析 ， 并 以 实例 
说 明 他 用 R 语 襄 进 行 数据 分 布 情况 人 析 的 方法 。 


统计 分 析 在 机 器 学 习 和 数据 分 析 中 有 着 举足轻重 的 地 位 。 李 开 复 在 攻读 博士 期 间 主 
攻 语 音 识别 。 他 的 导师 坚持 的 方向 是 发 展 和 完善 专家 系统 。 而 他 最 终 发 现 ， 专 家 系统 是 有 
严重 a 无 法 延伸 到 做 不 特定 语 者 的 语音 识别 他 认为 有 数据 支持 的 统计 模式 是 唯 

的 希望 ， 于 是 改 用 统计 的 方法 来 进行 语音 音 识 别 。3 年 中 ， 他 用 统计 的 方法 把 语音 识别 的 
ALAS 40% SEH 80%. 90%， 最 后 达到 了 96%， CHILE 把 他 的 发 明 选 为 
学 发 明 。 他 用 统计 学 方法 做 出 的 语音 识别 博士 论文 至 今 还 被 用 作 语 音 识 
别 产品 


Google 在 2006 年 面 对 广 大 用 户 推出 J 关键 词 统 i 十 分 析 系 统 : Google __ Trends, 链接 
AY: http://www.google.com/trends 。 这 是 一 个 非常 有 意思 和 价值 的 产品 ， 有 兴趣 的 读者 不 
妨 一 试 。 下 面 是 利用 这 个 系统 对 “machine a 这 个 搜索 关键 词 进行 的 统计 分 HT al 
5-18 和 图 5-19 中 可 以 明显 看 出 ， 机 器 学 习 越 来 越 广 人 关注 ， 尤 其 是 从 2011 年 年 底 开始 ， 
们 对 机 器 学 习 的 热衷 度 在 持续 上 升 ， 因 为 这 段 时 期 的 曲线 呈 稳 步 上 扬 趋 势 。 


















































machine learning +s 
HEF ee 


热度 随时 间 变 化 的 趋势 © vaa ORNO 





2009 


5-18 “机 器 学 习 ” 在 Google Trends 中 的 搜索 结果 
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5-19 “机 器 学 习 ” 在 Google Trends 中 的 搜索 结 
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思考 题 
1. 本 章 中 介绍 了 用 R 语 言 进行 回归 分 析 的 方法 。 请 对 下 列 几 组 数据 进行 回归 分 析 。 
(1) x=[2, 5, 8, 9, 12, 15], y=[18, 52, 78, 101, 125, 148] 

(2) x=[2, 5, 8, 9, 12, 15], y=[5, 120, 502, 739, 1708, 3415] 


Q.. 第 一 组 数据 适用 线性 回归 ， 第 二 组 数据 适用 非 线性 回归 ， 回 归 方 程 为 
y=xx20+exp(x/5). 


2.4 Google il Sif HT h BERDE E "的 中 文 关键 人 
趣 的 发 展 趋势 ， 目 前 机 器 学 习 的 哪些 分 支 tll Ae By AA See 


3. 下 载 本 书 例子 中 的 美国 地 震 台 数据 earthquakes. csv， 分 析 2013.3~2013.4 期 间 的 数 
Hi, 分 震级 统计 这 段 时 期 全 球 发 生 的 地 震 ， 同时 做 出 这 段 时 间 的 震 深 与 震级 散 点 图 ， 计 算 


震级 的 累积 分 布 ， 并 显示 累积 分 布 图 。 
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Hem TIATED RBI 


本 章 将 以 R 语 言 为 分 析 工 具 对 描述 性 分 析 
识 也 会 做 简单 介绍 ， 请 各 位 读者 按 准备 篇 的 指 





导 将 


案例 进行 剖析， ao na 


Rif 言 计 算 平 台 搭 
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6.1 数据 图 形 化 案例 解析 

是 事实 ， 也 称 观 测 值 ， 是 实验 、 测 量 、 | 
形式 给 出 。 数 据 分 析 的 目的 是 ee BSH, 
取 和 提炼 出 来 ， R O NENE. 


6.1.1 点 图 


OO ee 完整 数据 在 本 书 下 
REP 为 依据 ， 以 点 图 分 析 为 手段 ， 剖 析 电 子 行业 劳动 报酬 水 平 


表 6-1 全国 各 行业 就 业 调查 部 分 数据 


TURE 行业 名 称 平均 劳动 报酬 平均 教育 经 费 
10000 eH 出 


10100 Kell 230 
10300 308 
10310 196 
20000 44 
20800 M 





读 入 如 表 6-1 所 示 的 数据 文件 。 代 码 如 下 : 





> read.table("youxiangz.csv", ,header=TRUE, sep=",")->jiuye 





DT AT LAR PHAR, CAFE ATLAS SF SR PAN aE TO, ER RUE 
1) 从 数据 集中 筛选 电子 行业 的 劳动 报酬 。 代 码 如 下 : 





> jiuye$ 行 业 名 称 





[grepl(" 电 子 


", jiuye$ 行 业 名 称 


)]->jyhy — 
> jiuye$ 平 均 劳动 报酬 
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[grepl(" 电 子 
", jiuye$ 行 业 名 称 


)]->j 
> names(jygz)<- jyhy 


2) 绘制 电子 行业 薪水 点 图 ， 如 图 6-1 所 示 。 从 图 6-1 中 可 清楚 地 看 到 7 个 电子 行业 的 薪 




















sarin 可 将 图 6-1 分 为 若干 行 ， 每 一 行 代表 一 个 行业 ， 点 在 每 行 的 不 同位 置 代表 不 
人 ， 所 有 行 的 数值 遵循 同一 刻度 〈 刻 度 尺 在 点 图 的 最 下 方 ， 从 40000 到 120000 分 成 4 
| 加 
































了 的 信 Se AE PES AMC, A, 
ave, Me eats ITV OEE PA PS Cn ak aaa ty 
业 ， 而 “家 用 电器 及 电子 产品 专门 零售 "行业 的 数值 在 最 左 端 ， 属 于 电子 行业 中 薪水 最 低 的 








> dotchart(jygz) 
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家 用 电器 及 电子 -产品 专 | |S 


机 械 设 备 五 金 交 电 及 电子 产品 批改 


其 他 电子 设备 制造 


电子 元 件 制造 


HL ee il det 


电子 计算 机 制造 


通信 设备 计 算 机 及 其 他 电子 设备 制造 业 


40 000 80 000 


图 6-1 ”电子 行业 薪水 点 
6.1.2 ”人 饼 图 和 条 形 图 


下 面 以 饼 图 和 条 形 图 为 分 析 手 段 ， 对 中 介 行业 的 平均 劳动 报酬 进行 剖析 。 


1) 以 条 形 图 来 表示 平均 劳动 报酬 。 代 码 如 下 : 





> jiuye$ 平 均 劳动 报酬 
[grep1(" 中 介 


"jiuye$ 行 业 名 称 
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120 000 





)]->jygz 
> jiuye$ 行 业 名 称 


[grepl(" 中 介 
" jiuye$ 行 业 名 称 


)]->jyhy 
> names(jygz)<-jyhy 
> barplot(jygz,horiz = TRUE) 





绘制 结果 如 图 6-2 所 示 。 


从 图 6-2 可 明显 观察 到 , “科技 中 介 服 务 ” 行 业 的 平均 劳动 报酬 位 居 第 一 , “职业 中 介 服 
务 ” 位 居 最 后 。 


2) 除了 条 形 图 ， 还 可 以 用 饼 图 分 析 平 均 劳 动 报酬 。 代 码 如 下 : 











> pie(jygz) 


绘制 结果 如 图 6-3 所 示 。 





科技 中 介 服 务 


房地产 中 介 服 务 职业 中 介 服 务 


FT 
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图 6-2 ”中 介 行 业 的 平均 劳动 报酬 条 形 图 


房地产 中 介 服 务 


职业 中 介 服 务 


科技 中 介 服 务 





图 6-3 ”中 介 行 业 的 平均 劳动 报酬 饼 图 


观察 图 6-3， 代 表 “ 科 技 中 介 服 务 *” 的 面积 所 占 比 重 最 大 ， 因 此 属于 平均 劳动 报酬 最 
的 中 介 服 务 行业 。 





6.1.3” 茎 叶 图 和 箱 线 图 





本 节 将 要 讲解 的 茎 叶 图 和 箱 线 图 ， 可 能 大 家 平时 接触 得 比较 少 ， 但 在 数据 分 析 中 经 
常用 到 。 蔡 叶 图 和 箱 线 图 不 同 于 WE, em ESHA, 一 旦 掌握 了 读 图 的 方 
法 后 ， 会 发 现 它们 表现 数据 的 能 力 还 是 很 


1. 茎 叶 图 分 析 


茎 叶 图 又 称 “ 枝 时 图 ”， 它 的 思路 是 将 数组 中 的 数 按 位 数 进行 比较 ， 然 后 将 数 的 大 小 
基本 不 变 或 变化 不 大 的 位 作为 一 个 主干 ， 并 将 变化 大 的 位 的 数 作为 分 枝 ， 列 在 主干 的 后 ， 
这 样 就 可 以 清楚 地 看 到 每 个 主干 后 面 有 几 个 数 ， 每 个 数 具 体 是 多 少 。 下 面 

成 本 数据 为 例 ， 分 析 它 的 葵 叶 图 ， 如 表 6-2 所 未 。 


表 6-2 ”产品 单位 成 本 数据 








于 








一 


E 
© 
¥ 
Rr 
je 
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l 346.23 
343.34 
3 327.46 
| 313.27 
5 310.75 





在 R 语 言 中 ， 使 用 stem 函 数 进行 芭 叶 图 分 析 ， 其 格式 为 : 





> Stem( 变 量 ， 


Scale= 长 度 ， 


width= 绘 图 宽度 ， 


atom= 容 差 ) 





首先 调用 read.table 方 法 读 取 数据 文件 ， 然 后 调用 stem 函 数 绘制 苍 叶 图 。 代 码 如 下 : 





>read.table("cp.csv", , header=TRUE, sep=",")->cp 
> stem(cp$ 单 机 成 本 





JG 


pay 
ey 


.,scale=2 
The decimal point is 1 digit(s) to the right of the | 
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ai pene ile ae) 表示 将 图 的 长 度 设置 为 2。stem 函 数 生成 的 成 本 数据 茎 叶 
UD 人 下: 





29 | 68 

30 | 1356778 
31 | 1135 

32 | 7 


34 | 36 











而 中 "后 面 是 叶 。 以 最 后 一 


蔡 叶 图 的 每 一 行 表示 每 个 茎 与 它 的 叶子 ， 人 “前面 是 茎 ， 而 “ 。 以 最 后 一 
本 的 意思 是 : 百 位 数 为 3， 十 位 


行 "34|36" 为 例 ， 企 前 面 的 *34" 是 芭 ， 后 面 的 <36" 是 叶 ， 这 
数 为 4 的 数据 有 两 个 ， 分 别 是 : 345 和 346。 





最 
范围 内 。 


2. 箱 线 图 分 析 


箱 形 图 提供 了 一 种 只 用 5 个 点 来 对 数据 集 做 简单 总 结 的 方式 ， 这 5 个 点 包括 最 大 值 、 
最 小 值 、 中 位 数 、 下 四 分 位 数 和 上 四 分 位 数 。 箱 形 图 中 最 重要 的 内 容 是 对 相关 统计 点 的 计 
的 
































算 ， 相 关 统 计 点 可 以 通过 百 分 位 计算 方法 进行 实现 。 


以 2010 年 全 国 就 业 调查 数据 为 例 ， 绘 制 “平均 教育 经 费 * 的 箱 形 图 3 , 
中 ， 实 现 箱 线 图 分 析 的 相应 函数 为 boxplot。 下 面 的 代码 绘制 平均 教育 经 费 的 箱 形 图 。 





> boxplot (jiuye$ 平 均 教育 经 费 
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图 6-4 “平均 教育 经 费 的 箱 形 图 


ae 在 R 语 言 中 ， 还 可 以 使 用 fivenum 函 数 来 分 析 前 面 说 的 5 个 点 的 概要 。 
SY p: 








> fivenum(cp$ 单 机 成 本 





) 
分 析 结 果 如 下 ， 它 们 分 别 是 最 小 值 、 下 四 分 位 数 、 中 位 数 、 上 四 分 位 数 、 最 大 值 。 


[1] 296.210 304.275 307.225 313.915 346.230 
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6.2 ”数据 分 布 趋势 案例 解析 
本 节 继 续 以 产品 成 本 和 全 国 就 业 调 查 数据 为 例 ， 剖 析 这 两 类 数据 的 分 布 趋势 。 


6.2.1 平均 值 
下 面 使 用 R 语 言 的 mean 函 数 统计 就 业 调 查 数据 中 的 “平均 劳动 报酬 >。 代 码 如 下 : 


> mean(jiuye[[" 平 均 劳 动 报酬 








"ID 
[1] 42365.36 





同时 ， 还 可 以 统计 一 下 “平均 劳动 报酬 ?和 "平均 教育 经 费 ”。 代 码 如 下 : 


> cbind(jiuye[[" 平 均 劳 动 报酬 








"]], jiuye[[ "平均 教育 经 费 





"19 
> apply(jiuyeinfo, 2, mean) 
[1] 42365.365 391.035 





6.2.2 ”加 权 平 均值 
VSP SCS SRP 均 数 类 似 ， 但 数据 集中 的 每 个 数据 对 于 平均 数 的 贡献 并 不 是 相 


其 他 的 数据 更 加 重要 。 因 此 ， 在 加 权 平 均 法 中 ， 每 个 数据 都 有 其 相对 
D 


以 产品 成 本 数据 为 例 ， 齐 析 加 权 平 均值 。 首 先 读 取 产 品 成 本 数据 。 代 码 如 下 : 





> read.table("cp.csv", , header=TRUE, sep=",")->cp 





> cp 
序号 

产量 

a 
0O 

单机 成 本 

元 

a 
0O 
1 1 4300 346.23 
2 2 4004 343.34 
3 3 4300 327.46 
4 4 5016 313.27 
5 5 5511 310.75 
6 6 5648 307.61 
7 T 5876 314.56 
8 8 6651 305.72 
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6024 
6194 
7558 
7381 
6950 
6471 
6354 
8000 


310. 
306. 
305. 
300. 
306. 
303. 
298. 
296. 


然后 ， 求 产品 平均 单位 成 本 。 代 码 如 下 : 








> weighted.mean(cp$ 单 机 成 本 


:元 


。 7 Cp$ 产 量 


o> 


ry 309.9866 





6.2.3 ”数据 排序 


在 R 语 言 中 ， 使 用 sort 函 数 进行 数据 排序 。 比 如 ， 要 对 “平均 教育 经 费 ” 
采用 如 下 代码 : 





> sort(jiuye$ 平 均 教育 经 费 


[181] 
[193] 





818 
1131 


0 0 
30 31 
50 51 
72 75 

100 100 
136 138 
161 161 
184 186 
212 212 
260 267 
304 305 
342 348 
409 416 
470 486 
571 582 
830 832 
1198 1255 


2 2 
31 32 
55 62 
76 80 

100 105 
144 145 
162 166 
190 196 
224 225 
276 276 
308 314 
369 371 
422 423 
522 524 
679 682 
840 858 


890 


7 7 
37 38 
65 66 
92 93 

110 111 
147 147 
168 168 
196 200 
230 241 
282 295 
317 330 
374 389 
436 443 
551 551 
722 738 
890 890 


1553 2087 2564 12645 


进行 排序 ， 可 


_ 排序 后 ， 可 以 初步 发 现 ， 这 些 行业 的 教育 经 费 中 ， 最 大 的 有 12645， 而 最 小 的 除 0 之 
外 还 有 2， 不 同行 业 之 间 的 教育 经 费 差异 很 大 。 


也 可 以 改变 排序 顺序 ， 通 过 指定 decreasing 参 数 为 TRUE， 实 现 按 从 大 到 小 的 顺序 排 
列 。 代码 如 下 : 














> sort(jiuye$ 平 均 教育 经 费 


, decreasing=TRUE) 
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[1] 12645 2564 2087 1553 1469 1255 1198 1131 1096 995 986 890 
[13] 890 890 858 840 840 832 830 818 782 768 753 738 
[25] 722 692 682 679 645 582 571 563 557 555 554 551 
[37] 551 535 524 522 502 486 470 466 461 455 454 443 


[73] 317 315 314 308 306 305 304 303 299 298 295 295 
[85] 282 277 276 276 267 267 260 258 247 247 241 241 


[133] 147 146 145 144 143 138 136 125 119 118 115 111 





6.2.4 中 位 数 








中 位 数 比 平均 值 更 有 稳健 性 ， 因 为 它 不 受 偏 态 分 布 的 影响 。 代 码 如 下 : 


> median(jiuye$ 平 均 教育 经 费 











)# 中 位 数 


[1] 222.5 
> mean(jiuye$ 平 均 教育 经 费 





)# 平 均 数 





[1] 391.035 





育 经 费 的 中 位 数 222.5 与 它 的 平均 值 391.035 有 一 定 差 距 ， 这 说 明和 平均 教育 经 费 不 是 
称 分 布 的。 


>< 


6.2.5 Mee. BME 





OEE AUN BM mE, KCl Aeae, 
EmA An SES LA AUSTEREO A I eR 
差 。 同 时 ， 它 还 能 体现 一 组 数据 波动 的 范围 。 下 面 的 代码 计算 “平均 教育 经 费 * 的 极 差 。 


mH 


CIK 


` 





> max(jiuye$ 平 均 教 育 经 费 





) -min(jiuye$ 平 均 教育 经 费 


tay 12645 





相对 极 差 而 言 ， 四 分 位 数 间距 (上 四 分 位 数 与 下 四 分 位 数 之 差 〉 更 稳定 ， 它 不 受 两 
端 个 别 极 大 值 或 极 小 值 的 影响 ， 可 理解 为 中 间 50% 观 察 值 的 极 差 ， R k 为 半 极 差 。 


四 分 位 数 是 统计 学 中 分 位 数 的 一 种 ， 即 把 所 有 数值 由 小 到 大 排列 并 分 成 4 等 份 ， 处 于 
3 个 分 隔 点 位 置 的 得 分 就 是 四 分 位 数 ， 下 四 分 位 数 是 所 有 数据 由 小 到 大 排列 后 处 于 259% 位 
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置 的 数 ， 上 四 分 位 数 是 所 有 数据 由 小 到 大 排列 后 处 于 75% 位 置 的 数 。 四 分 位 数 在 R 语 言 中 
用 quantile 函 数 求 解 ， 下 面 的 代码 计算 了 “平均 教育 经 费 * 和 “平均 劳动 报酬 * 的 四 分 位 数 。 








> quantile(jiuye$ 平 均 教育 经 费 


0% 25% 50% 75% 100% 
100.0 222.5 425.0 12645.0 


) 
0.0 
> quantile(jiuye$ 平 均 劳动 报酬 


) 
0% 25% 50% 75% 100% 
13624.0 28607.5 37681.0 51762.0 150098.0 


变异 度 反 映 数 据 围 绕 中 心 位 的 离散 度 ， 四 分 位 数 间距 数值 越 大 ， 变 卉 度 越 大 ， 
之 ， 变 异 度 越 小 。 在 R 语 言 中 使 用 IQR 函 数 求解 四 分 位 数 间距 ， STARCHEF Be 
经 费 ” 和 “平均 劳动 报酬 ” 由 四 分 位 数 向 好。 











> IQR(jiuye$ 平 均 教 育 经 费 


[1] 325 
> IQR(jiuye$ 平 均 劳 动 报酬 





ii 23154.5 





从 执行 结果 来 看 ，“ 平 均 教 育 经 费 * 相 比 “ 平 均 劳 动 报 酬 * 变 异 度 小 很 多 。 
6.26 方差 


方差 是 重要 的 数据 分 散 程度 度量 指标 。 其 计算 公式 为 : 





在 R 语 言 中 ， 可 使 用 var 函 数 统计 方差 。 下 面 的 代码 计算 “平均 教育 经 费 * 的 方差 。 





> Var(jiuye$ 平 均 教育 经 费 


A 883263.6 





6.2.7 标准 差 
标准 差 世 是 重要 的 数据 分 散 程 度 度 量 指 标 。 其 计算 公式 为 : 
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在 R 语 言 中 使 用 sd 函数 统计 标准 差 。 下 面 的 代码 计算 “平均 教育 经 费 ” 的 标准 差 。 


> sd(jiuye$ 平 均 教育 经 费 








tay 939.821 





6.2.8 变异 系数 、 样 本 平方 和 
1. 变 异 系数 


ERRA, SOK EBB , 是 概率 分 布 离散 程度 的 一 个 归 一 化 量度 ， 其 定义 为 标 
准 差 与 平均 值 之 比 。 变 异 系数 的 计算 公式 为 : 


上 式 中 Ss 表 示 标 准 差 ， x 表示 平均 值 。 变异 系数 越 小 ， 变异 程度 越 小 ， 反 之 ， 变 异 系 
数 越 大， 变异 程度 越 大 。 下 面 的 代码 计算 了 “平均 教育 经 费 的 变异 系数 。 


> sd(jiuye$ 平 均 教育 经 费 








)/mean(jiuye$ 平 均 教育 经 费 


i 2.403419 


再 看 看 “平均 劳动 报酬 * 的 变异 系数 。 代 码 如 下 : 


> sd(jiuye$ 平 均 劳 动 报酬 














)/mean (jiuye$ 平 均 劳 动 报酬 


) 
[1] 0.4916487 





可 见 ，“ 平 均 教育 经 费 * 相 对 于 “平均 劳动 报酬 * 分 布 更 分 散 ， 因 为 它 的 变异 系数 更 


=] 


JEJ o 
2. 样 本 平方 和 


样本 校正 平方 和 《CSS) 为 样本 与 均值 差 的 平方 求 和 。 下 面 的 代码 计算 “平均 教育 经 
费 ” 的 样本 校正 平方 和 。 
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> Sum((jiuye$ 平 均 教 育 经 费 


-mean(jiuye$ 平 均 教育 经 费 





[1] 175769451 





样本 未 校正 平方 和 《〈USS) 为 样本 值 平方 的 求 和 。 下 面 的 代码 计算 了 “平均 教育 经 
费 ” 的 样本 未 校正 平方 和 。 


> sum(jiuye$ 平 均 教育 经 费 








AN 
[1] 206351125 





6.2.9 iE ARB. WERE BL 


UR 


称 性 的 。 偏 度 的 值 


对 
可 以 为 正 ， DLA peat 0 Pil nese ene 


ate 
EER RA WED ARME RECKE, 
偏 度 系数 的 计算 公式 为 : 


n on 
PEA 


在 R 语 言 中 ， 可 用 如 下 代码 计算 “平均 教育 经 费 * 的 偏 度 系数 。 











> mean(jiuye$ 平 均 教育 经 费 


)->mymean 
> sd(jiuye$ 平 均 教育 经 费 





)->mysd 
> length(jiuye$ 平 均 教育 经 费 





)->myn 
> jiuye$ 平 均 教育 经 费 





> > nyn/ (ayn oe (myn-2))*sum((x-mymean)43)/mysd43 
[1] 11.366 


2. 峰 度 系 数 


峰 度 系数 衡量 实数 随机 变量 概率 分 布 的 峰 态 ， 峰 度 蜗 山 意味 者 方 差 增 大 是 由 低频 度 
的 大 于 或 小 于 平均 值 的 Jo * 为 正 态 分 布 时 ， 峰 度 系数 近似 为 0; 

当 数据 PARESSE 分 散 时 ， ， 两 侧 的 极端 数据 较 多 ， 除 此 以 
外 ， MERINA, 两 侧 的 极端 数据 较 少 。 
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峰 度 系数 计算 公式 为 : 


(ntl) oy ely 
Gia (n-2)n-3) 


在 R 语 言 中 ， 可 用 如 下 代码 计算 “平均 教育 经 费 * 的 峰 度 系数 。 








> mean(jiuye$ 平 均 教育 经 费 


->mymean 
sd(jiuye$ 平 均 教育 经 费 


Ve 





->mysd 
length(jiuye$ 平 均 教育 经 费 


ve 





Ve 
' 


>myn 
jiuye$ 平 均 教育 经 费 


-> 
> (riya iynrt) A Cnyn 4) (myn 2 (myn-3))*sum((x-mymean ina) /nysdná-(3* (myn-1)42)7 ((myn-2)* (iyi 
3 


[1] 146.8809 


二 一 
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6.3 ” 正 态 分 布 案例 解析 
6.3.1 IERS TRA 


yt 


对 于 一 维 实 随 机 变量 X， 设 它 的 累积 分 布 函数 是 Fx (x)。 如 果 存 在 可 测 函 数 fx (x), 
满足 : 


V-0 <a<% Fidel, Hd 


那么 X 是 一 个 连续 型 随机 变量 ， 并 且 fX (x) 是 它 的 概率 密度 函数 。 


累积 分 布 函数 ， 又 叫 昧 计 分 布 函数 ， 是 概率 密度 函数 的 积分 ， 能 完 ee 个 实 
随机 变量 X 的 概率 分 布 情况 。 对 于 所 有 实数 x， 累 积分 布 函 数 的 定义 如 下 


HPA < x) 








其 中 ,是 均值 ，o 是 方差 。 
正 态 分 布 的 概率 密度 曲线 通常 如 图 6-5 所 示 。 











wawai bbt .cam OAR IEE ATCHE 



































正 态 分 布 的 概率 密度 曲线 


图 6-5 


位 置 
向 数值 


BAA AIT PK, SEA 
布 ; 如 果 集 中 位 置 仿 





位 置 偏向 数值 小 的 一 侧 ， 


若 集 
则 称 为 负 偏 态 分 布 。 如 图 6-6 所 示 ， 


一 侧 ， 


i 


I, 


Ahi] 
大 的 一 
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Negative Skew Positive Skew 
图 6-6 ” 偏 态 分 布 


6.3.2 WER AB AT 





aa 人 经 费 ” 哪 个 更 接近 正 态 分 布 。 代 





> mean(jiuye$ 平 均 劳动 报酬 


)->mymean 
> sd(jiuye$ 平 均 劳动 报酬 








)->mysd 
> length(jiuye$ 平 均 劳 动 报酬 


)->myn 
> jiuye$ 平 均 劳 动 报酬 





->X 
>( (myn* (myn+1))/((myn-1)*(myn-2)*(myn-3))*sum((x-mymean)^4)/mysd^4-(3*(myn-1)^2)/((myn-2)*(myn- 
3 


[1] 5.417817 





上 面 计算 出 了 “平均 劳动 报酬 "的 峰 度 系数 为 5.417817, “平均 教育 经 费 ” 的 峰 这 系数 为 
146.8809〈 见 6.2.9 节 ) 。 这 两 个 峰 度 系 数 表 明 , “平均 劳动 报酬 "相对 于 “平均 教育 经 费 ” 更 
接近 正 态 分 布 。 


从 下 面 的 分 析 守 本 以 发 现 ， 产品 产量 最 适合 正 态 分 布 模型 ， 因 为 它 的 峰 度 系数 仅 
为 -0.6830728， 非 常 接 近 正 态 分 布 。 











> mean(cp$ 产 量 


a 
"器 


. )->mymean 
> Sd(cp$ 产 量 


pay 
E 
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.)->mysd 
> length(cp$ "ir 


o> 


.)->myn 
> Cp$ 产 量 


o> 


. ->X 
>( (myn* (myn+1))/((myn-1)*(myn-2)*(myn-3))*sum((x-mymean)^4)/mysd^4-(3*(myn-1)^2)/((myn-2)*(myn- 
3 


[1] -0.6830728 





6.3.3 ”累积 分 布 概率 





在 使 用 pnorm 求 产品 产量 的 分 布 函数 时 ， 对 应 的 每 个 实数 随机 变量 都 有 其 累积 分 布 概 
率 。 下 面 的 代码 计算 产品 产量 的 累积 分 布 概率 。 





> mean(cp$ 产 量 


. )->mymean 
> sd(cp$ 产 量 


o> 


.)->mysd 
> length(cp$ 产 量 


o> 


.->X 
>X 

[1] 4300 4004 4300 5016 5511 5648 5876 6651 6024 6194 7558 7381 6950 6471 
[15] 6354 8000 
> pnorm(x,mymean, mysd) 

[1] 0.07435941 0.04519643 0.07435941 0.20013522 0.33567136 0.37868351 

[7] ©.45345196 ©.70390728 0.50306546 0.55994848 0.90310411 0.87500925 
[13] 0©.78449233 0.64954647 0.61239714 0.95270286 





为 了 更 好 地 观察 效果 ， 再 绘制 一 张 产品 产量 的 累积 分 布 概率 的 散 点 图 





> plot(x, pnorm(x,mymean, mysd) ) 


绘制 结果 如 图 6-7 所 示 。 
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> > > 
+ -X oo 


pnorm(x, mymean, mysd) 


"~ 
N 





4000 5000 6000 7000 8000 
X 


图 6-7 产品 产量 累积 分 布 
6.3.4 ”概率 密度 函数 


1. 概 率 密 度 概 述 


MES SZ CTE TRL E AO 是 描述 这 个 随机 变量 的 输 
出 值 在 某 一 个 确定 的 取信 点 附近 的 可 能 性 的 函数 。B 
率 则 是 概率 密度 函数 在 这 个 区 域 上 的 积分 ， 当 概 率 密 
是 概率 密度 函数 的 积分 。 


正 态 分 布 的 概率 密度 函数 为 : 





rea 
Shim 
ce iF 
RT ASE 
ay Pe 
~ ts 
MES 
区 车 
ef 
Ni 
ot 





其 中 ，h 是 均值 ，o 是 方差 。 
其 概率 密度 曲线 关于 x=h 对 称 
2 .概率 密度 函数 计算 
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在 R 语 言 中 ， 使 用 dnorm (变量 ， 平均 值 ， 标 准 差 ) 求解 正 态 分 布 概率 密度 函数 。 下 
面 的 代码 计算 产品 产量 的 概率 密度 。 








> mean(cp$ 产 量 


a 
‘A 


. )->mymean 
> sd(cp$ 产 量 


a 
‘A 


.)->mysd 
> length(cp$ 产 量 


A 
E 


. )->myn 
> cp$ 产 量 


pay 
"可 


.->x 
> dnorm(x,mymean,mysd) 
[1] 1.184240e-04 8.009886e-05 1.184240e-04 2.358477e-04 3.070239e-04 
[6] 3.202882e-04 3.336542e-04 2.910430e-04 3.359337e-04 3.321435e-04 
[11] 1.444115e-04 1.733374e-04 2.463862e-04 3.120546e-04 3.225207e-04 
[16] 8.307503e-05 


查看 产品 产量 均值 ， 得 到 如 下 结果 : 








> mymean 
[1] 6014.875 








绘制 散 点 图 如 图 6-8 所 示 。 可 以 看 到 该 曲线 接近 于 以 6014.875 为 对 称 点 的 对 称 分 布 。 
绘制 代码 如 下 





>plot(x, dnorm(x,mymean, mysd) ) 





Pg ae 正 态 分 布 随机 数 ， 调 用 格式 为 mnorm (KEE, FHE, brite 





>rnorm(50,0,1)->rx 
> plot(rx,dnorm(rx) ) 


如 图 6-9 所 示 是 一 个 经 典 的 正 态 密度 曲线 ， 从 曲线 上 看 就 像 一 个 驼峰 。 
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RR R Graphics: Device 2 (ACTIVE) 


© 
È 
= 
© 
四 
三 
三 
E 
x 
E 
G 
= 
5 





图 6-8 产品 产量 概率 密度 图 
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$ R Graphics: Device 2 (ACTIVE) 





图 6-9” 正 态 密度 曲线 
6.3.5 ”分 位 点 
分 位 点 分 为 上 a 分 位 点 与 下 a 分 位 点 。 


1. 下 a 分 位 点 


可 从 概率 密度 函数 的 角度 理解 下 a 分 位 点 。 设 连续 随机 变量 X 的 累积 分 布 函 数 为 
F(x), 密度 函数 为 f(x)， 则 有 : 
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F(x 





[pe < Za 


上 式 的 含义 为 : 连续 随机 变量 X 小 于 等 于 Zo 的 概率 为 a。 在 这 里 ， 称 Zo 是 X 的 下 a 分 
位 点 。 

下 面 计 算 产量 分 布 的 下 a 分 位 点 。 设 下 a 分 位 点 的 aq=25%=0.25， 需 要 分 析 产 量 小 于 多 
少 的 概率 为 25%。 


计算 产量 分 布 的 下 a 分 位 点 (aq=25%) ， 可 如 下 调用 qnorm 函 数 〈 其 中 ，mean 为 平均 
值 ，sd 为 标准 差 ): 


-% 








qnorm(0.25,mean, sd) 





具体 代码 如 下 : 





>sd(cp$ 产 量 


a 
“7 


.)->mysd 
>qnorm(0.25,mean=mymean, sd=mysd ) 
[1] 5213.9 








上 面 的 计算 结果 表明 ， 产 量 <5213.9 的 概率 为 25%。 
2. Paani 
上 oa 分 位 点 的 公式 为 : 


A Ze 


其 中 ，Zu 为 X 的 上 a 分 位 点 。 


.分 析 上 a 分 位 点 的 公式 可 发 现 ， 上 a 分 位 点 的 计算 与 下 a 分 位 点 有 关 ， 比 如 : 计算 上 a 
分 位 点 (a=25%) 可 转化 为 计算 下 a 分 位 点 (a=1-25%=75%)。 

下 面 计算 产量 分 布 的 上 a 分 位 点 。 设 上 a 分 位 点 的 a=25%， 需 要 分 析 产 量 大 于 多 少 的 
概率 为 25%。 


计算 产量 分 布 的 上 a 分 位 点 (qa=25%) ， 可 如 下 调用 qnorm 函 数 〈 其 中 ，mean 为 平均 
值 ，s d 为 标准 差 ): 





qnorm(1-0.25, mean, sd) 





具体 代码 如 下 : 





> mean(cp$ 产 量 
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pay 
“a 


. )->mymean 
>sd(cp$ 产 量 


A 
oa 


.)->mysd 
>qnorm(0.75,mean=mymean, sd=mysd) 
[1] 6815.85 








上 面 的 计算 结果 表明 ， 产 量 >6815.85 的 概率 为 25%， 即 上 oa 分 位 点 的 公式 中 ，Zu 为 产 
量 6815.85， 上 oa4 A. 25， 可 用 下 式 表 示 : 


P(x>Zw )=p(x>6815.85)=0.25 
3. 绘 效果 图 
1) 通过 下 面 R 语 句 绘 制 如 图 6-10 所 示 的 产品 产量 的 概率 密度 图 ，P(x>0.25) 为 图 6-10 


TE 图 6- 
中 的 阴影 面积 (根据 积分 的 几何 意义 ， 岂 积分 布 函数 FCO 基 密度 函数 foo 的 积分 ， 图 中 若 
干 点 组 成 了 密度 函数 曲线 ， 和 而 曲线 与 X 辅 转 成 的 面积 则 为 介 积 分 布 





S 








> mean(cp$ 产 量 


2a 
H 


. )->mymean 
>sd(cp$ i 


a 
“a 


.)->mysd 
> Cp$ 产 量 


A 
“7 


.->X 
>plot(x,dnorm(x,mymean, mysd) ) 
>abline(v=6815.85) 





2) 绘制 产品 产量 的 累积 分 布 图 (如 图 6-11 所 示 ) 。 可 绘制 一 个 产品 产量 的 上 
a(a=0.25) 分 位 点 和 下 a(a=0.25) 分 位 点 的 效果 图 。 绘制 代码 如 下 ; 





> mean(cp$ 产 量 


a 
“a 


. )->mymean 
>sd(cp$ st 


a 
“a 


.)->mysd 
> cp$ it 
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pay 
“可 


>plot (x, pnorm(x,mymean, mysd) ) 
>abline(v=6815.85) 
>abline(v=5213.85) 





0.000 30 


0.000 20 


dnorm(x,mymean,mysd) 





4000 5000 6000 7000 8000 


图 6-10 ”产品 产量 的 上 a 分 位 点 
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0.8 


0.6 


0.4 


pnorm(x,mymean,mysd) 





4000 5000 6000 7000 8000 
X 
图 6-11 产量 的 上 a 分 位 点 和 下 a 分 位 点 
分 析 绘 制图 6-10 与 图 6-11 所 示 的 结果 ， 能 较 直 观 地 验证 刚才 得 到 的 结论 : 上 


a(a=0.25) 分 位 点 表明 产量 >6815.85 的 概率 为 25%， 而 下 a(a=0.25) 分 位 点 表明 产量 
<5213.9 的 概率 为 25%。 


6.3.6 ”频率 直方 图 


在 R 语 言 中 ， 可 使 用 hist 语 句 〈 设 freq 参 数 为 TRUE〉 生 成 频率 直方 图 。 下 面 的 代码 绘 
制 “平均 劳动 报酬 * 的 频率 直方 图 。 


> hist (jiuye[[" 平 均 劳 动 报 醋 








"]],freq=TRUE) 





绘制 结果 如 图 6-12 所 示 。 








6.3.7 ” 核 概 率 密 度 与 正 态 概率 分 布 





1. 核 概率 密度 与 正 态 概 率 
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下 面 考虑 让 "平均 劳动 报酬 ?的 概率 密度 与 正 态 分 布 在 一 张 图 中 显示 出 来 ， 这 样 就 能 
更 好 地 看 清 数据 的 分 布 情况 。 示 例 代 码 如 下 : 








> hist(jiuye[[" 平 均 劳动 报酬 





"]],freq=FALSE) 
> lines(density(jiuye[[" 平 均 劳 动 报酬 








"]]),col="red") 
> x<-c(0:ceiling(max(jiuye[[" 平 均 劳动 报酬 





"11))) 
> lines(x,dnorm(x,mean(jiuye[[ "平均 劳动 报 柄 


"]])，sd(jiuye[[ "平均 劳动 报酬 





"1])),col="blue") 





绘制 结果 如 图 6-13 所 示 。 


Histogram of jiuye[[“ 平 均 劳 动 报 酬 站 ]] 
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40 


Frequency 


0 
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0 50000 100000 150000 
jiuye[[ F957 REN] 
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平均 劳动 报酬 的 频率 直方 图 


图 6-12 


Histogram of jiuye[[ 平 均 序 动 报酬 门 ] 





2.0e-05 
1 .Se-05 
> 
- 1.0e-05 
A 
5.0e-06 
0.0e-0( 
0 50 000 100 000 150 000 
jiuye[[ FARN] 


图 6-13 ”平均 劳动 报酬 的 概率 密度 与 正 态 分 布 
从 图 6-13 中 可 以 看 到 ，“ 平 均 劳 动 报酬 ”的 偏 度 大 于 0， 直 方 图 偏 左 ， 属 于 偏 态 分 布 。 





2. 经 验 累积 分 布 与 正 态 分 布 
经 验 分 布 阔 数 是 指 根 据 样本 构造 的 概率 分 布 阔 数 。 设 x] ，x2 ，.….，xn 为 一 组 样本 ， 
尔 


定义 函数 m(x) 表 示 样 本 中 小 于 或 者 等 于 x 的 样本 个 数 ， 则 称 函 数 
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为 样本 x1 > XI ，...， Xn 的 经 验 分 布 函数 。 
下 面 的 代码 绘制 “平均 劳动 报酬 * 的 经 验 累 积分 布 与 正 态 分 布 。 





> plot (ecdf(jiuye[[" 平 均 劳 动 报酬 





"]]),verticals=TRUE, do.p=FALSE) 
> lines(x,pnorm(x,mean(jiuye[[" 平 均 劳动 报酬 





"]]),sd(jiuye[[" 平 均 劳 动 报酬 





"]])),col="blue") 





绘制 结果 如 图 6-14 所 示 。 其 中 ， 光 请 的 线 为 累积 正 态 分 布 曲 线 ， 不 光滑 的 线 为 经 验 
累积 分 布 曲线 。 


6.3.8” 正 态 检 验 与 分 布 拟 合 


1.QQ 图 


QQ 图 可 以 测试 数据 分 布 是 否 近似 为 某 种 类 型 分 布 。 如 果 近 似 于 正 态 分 布 ， 则 数据 点 
接近 下 面 方程 表示 的 直线 


y=0x+h 
其 中 ，o 为 标准 差 ， 为 平均 数 。 


比如 ， 可 用 它 来 测试 "平均 劳动 报酬 ?分 布 是 否 近 似 于 正 态 分 布 。 在 R 语 言 中 ， 使 用 
qqnorm 贡 数 来 画 数 据点 图 ， 使 用 qqline 函 数 画 这 根 了 ee, 如 图 6-15 所 示 。 代 码 如 下 : 





o 
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Fn(x) 


1.0 


0.8 


0.6 


0.4 


0.0 


ecdf(jiuye[[“ FI 57 a FM” }) 


50 000 100 000 
X 


图 6-14 ”平均 劳动 报酬 的 经 验 累积 分 布 与 正 态 分 布 
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图 6-15 ”平均 劳动 报酬 分 布 QQ 图 





> qqnorm([ "平均 劳动 报酬 





"]]) 
> qqline(jiuye[[" 平 均 劳动 报酬 
"]]) 


从 图 6-15 来 看 ， 平 均 劳 动 报酬 离 标准 正 态 分 布 还 是 有 差距 的 。 
相对 于 “平均 劳动 报酬 ”， 产品 产量 就 非常 接近 正 态 分 布 。 代 码 如 下 : 














> qqnorm(cp$ 产 量 


a 
"器 


-) 
> qqline(cp$ i 
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+) 


绘制 出 的 QQ 图 如 图 6-16 所 示 。 





Normal Q-Q plot 
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图 6-16 ”产品 产量 QQ 图 
2. 正 态 检验 与 分 布 拟 合 





1) W 检 验 。W 检 验 可 以 检验 数据 是 否 符合 正 态 分 布 。 在 R 语 言 中 使 用 函数 
shapiro.test() 进 行 正 态 W 检 验 。 代 码 如 下 : 








> Shapiro,test(cp$ 产 量 


pay 
a) 


Shapiro-wilk normality test 
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data: cp$ 产 量 


pay 
sH 


W = 0.9671, p-value = 0.7903 








上 述 代 码 中 出 现 了 p 值 ， 其 作用 是 : 当 p 值 小 于 某 个 显著 水 平 a (如 0.05) 时 ， 认 为 样 
本 不 是 来 自 于 正 态 分 布 的 总 体 。 此 例 中 ， 0.9903>0.05 可 认为 产量 是 正 态 分 布 的 。 


2) Kolmogorov-Smirnov 检 验 。 Kolmogorov- -Smirmov 检 验 用 于 检验 单一 样本 是 否 来 自 
某 一 特定 分 布 ， 比 如 检验 一 组 数据 是 否 为 证 态 分 布 。 它 的 检验 方法 是 以 样本 数据 的 累计 频 
数 分 布 与 特定 理论 分 布 做 比较 ， 若 两 者 间 的 差距 很 小 ， 则 该 样本 取 自 某 特定 分 布 族 。 可 比 
较 一 个 频率 分 布 f(x) 与 理论 分 布 g(x)， 或 者 两 个 观测 值 分 布 来 完成 检验 。 


可 以 从 假设 检验 的 角度 E Smirnov 检 验 ， 假 设 检验 使 用 了 一 种 类 似 
于 “ 反 证 法 ”的 推理 方法 ， 它 先 假设 总 体 中 的 某 项 假设 成 立 ， 计 算 其 会 导致 什么 结果 产生 。 

FEIA AEI RE, 拒绝 原先 的 假设 ; 若 没有 导致 不 合理 的 现象 发 生 ， 即 不 拒绝 原 假 
Bie SAREE. 


对 Kolmogorov-Smirnov 检 验 而 言 ， 将 原 假 设 H0 确 定 为 : 两 个 数据 分 布 一 致 或 者 数据 
符合 特定 理论 分 布 。 用 Fo (x) 表 示 分 布 函 数 ，Fn (x) 表 示 一 JABAL ORIG 2 BUM KKG 


DAL, (x) SFy (X) 差 距 的 最 大 值 ， 定 义 如 下 : 
D=max|Fn (x)-Fo (x)| 
当 实 际 观 测 值 D>Da，o 时 ， 则 拒绝 HO， 和 否则 接受 H0 假 设 。 
在 R 语 言 中 使 用 ks.test 函 数 完成 正 态 性 检验 。 代 码 如 下 : 



























































ks. test(x, Y, ...,alternative = c("two.sided", "less", "greater"), 
exact = NULL) 





ary E 4 个 参数 ， 第 一 个 参数 x 为 观测 值 向 量 ; 一 个 参数 y 为 第 一 观 测 值 向 量 





























或 者 昧 计 分 布 函 数 ， 或 者 一 个 真正 的 累积 分 布 函 数 ， Te nAi RACORE A: 第 三 
个 参数 指明 是 单 人 he exact 参 数 为 NULL 或 者 一 个 逻辑 值 ， 
计算 精确 的 P 值 。 比 如 : 要 生成 两 个 随机 的 正 态 分 布 ， 然 后 检验 这 两 个 分 布 是 否 是 同一 类 
型 的 分 类 。 其 示例 代码 如 下 : 





> ks.test(rnorm(80), rnorm( 40) ) 
Two-sample Kolmogorov-Smirnov test 
data: rnorm(80) and rnorm(40) 
D = 0.125, p-value = 0.7874 
alternative hypothesis: two-sided 











i 从 上 述 代码 可 见 ，p 值 大 于 0.05， 不 拒绝 原 假 设 ， 因 此 可 认为 这 两 个 分 布 是 同一 





验 分 


Kolmogorov-Smirnov 检 验 要 求 待 验 分 布 是 连续 的 ， 连 续 分 布 出 现 相同 值 的 概率 为 0， 
也 就 是 说 ， 数 据 中 党 出 现 相同 值 ， 则 连续 分 布 的 假设 不 成 立 ， 











6.3.9 其 他 分 布 及 其 拟 合 
前 面 几 节 介 绍 了 R 语 言 函数 对 正 态 分 布 的 支持 (函数 名 除 前 缀 外 为 norm) 。 除 了 正 
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态 分 布 外 ，R 语 言 还 支持 对 其 他 数据 分 布 的 分 析 和 拟 合 ， 如 下 所 示 : 

由 数 分 布 ”rexp(n,rate=1) 

gama 分 布 rgammal(n,shape,scale=1) 

泊 松 分 布 rpois(n,lambda) 

Weibull 分 布 rweibull(n,shape,scale=1) 
Cauchy 分 布 rcauchy(n,location=0,scale=1) 

beta 分 布 rbeta(n,shape1,shape2) 
S(tudent) 分 布 rt(n,df) 

Fisher-Snedecor rf(n,df1,df2) 

Pearson rchisq(n,df) 

二 项 式 分 布 rbinom(n,size,prob) 
多 项 式 分 布 rmultinom(n,size,prob) 

几何 分 布 rgeom(n,prob) 


hypergeometric rhyper(nn,m,n,k) 








logistic rlogis(n,location=0,scale=1) 

lognormal rlnorm(n,meanlog=0,sdlog=1) 

negative binomial rmbinom(n,size,prob) 

uniform runif(n,min=0,max=1) 

Wilcoxon’s statistics rwilcox(nn,m,n),rsignrank(nn,n) 

对 这 些 函 数 的 调用 格式 是 : 前 组 + 函数 名 。 
前 级 规则 如 下 : 

密度 函数 : d 

累计 概率 分 布 函数 : p 

分 布 函 数 的 反 函数 : q 

相同 分 布 的 随机 数 : r 
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6.4.1 多 变量 数据 分 析 


通常 应 用 于 数据 同时 存在 多 个 变量 〈 因 素 、 


多 变量 数据 分 析 也 称 为 多 元 数据 分 析 ， 是 指 对 多 个 变量 同时 进行 分 机 和 可 视 化 操 


作 。 
1. 求 职 情况 散 点 图 矩阵 


as ey a a 可 使 用 pairs(A) 


在 Ri 语句 
i ET 面 以 求职 情况 为 例 ， 讲 解 如 何 使 用 散 点 图 矩阵 来 展示 E 








为 第 二 季度 A Se. 
426-3 


2009 3413 


第 二 季度 市 场 求职 


T ANR ENR 


202 


nZ 


112 


) 


绘制 两 列 之 间 的 
量 数 据 ， 表 6-3 


青 况 表 





110 3902961 1 
01 1615531 10 


年 Ë 求职 人 数 绝对 求职 指数 相对 求职 指数 








输入 以 下 R 代 码 对 表 6-3 的 求职 数据 进行 分 析 : 





> ejdqz<-read.csv("ejdqz.csv") 
> ejdqz 


年 度 





求职 人 数 


wana bbt . cam 











WEA 


mére 

















绝对 求职 指数 


相对 求职 指数 


1 2008 年 

3045412 100 100 
2 2009 年 

3413202 112 112 
3 2010 年 

3902961 128 121 
4 2011 年 

3675531 121 106 
5 20124 

3765853 124 107 
6 2013 年 

3562515 117 100 
7 2014F 





3350834 
> pairs(ejdqz )# 绘 制 a x, 结果 如 图 


6-17 所 示 





表 6-3 中 求职 数据 的 散 点 图 矩阵 如 图 6-17 所 示 。 
查看 散 点 图 矩阵 有 以 下 两 种 方式 : 


D 首先 ， 固 定 代表 某 一 变量 的 茶 一 列 〈 或 代表 某 些 变量 的 某 几 列 ) ， 然 后 查看 与 代 
表 其 他 某 变量 的 茶 一 行 〈 或 代表 其 他 变量 的 茶几 行 ) 交叉 处 的 图 。 


2) 首先 ， 固 定 代 表 某 一 变量 的 某 一 行 〈 或 代表 茶 些 变量 的 某 几 行 ) ， 然 后 查看 与 代 
表 其 他 某 变量 的 茶 一 列 〈 或 代表 其 他 变量 的 茶几 列 ) 交叉 处 的 图 。 


例如 ， 可 以 定位 二 年度， 假设 需要 查看 图 6-17 所 示 的 2012 年 的 数据 ， 就 将 目光 定位 ， 
于 第 一 行 ， 求 职 人 数 接近 380 万 ， 而 绝对 求职 指数 略 高 于 120， 相 对 求职 指数 在 105 到 110 之 
间 。 又 比如 假设 需要 查看 求职 人 数 在 340 万 以 上 ， 绝 对 求职 指数 在 115 以 上 的 年 份 ， 这 样 就 
STRE 4 人 数 和 年 份 ， 先 锁定 于 第 1 列 和 第 3 列 ， (求职 人 数 ) 的 第 1 行 找 到 340 
万 以 上 《刻度 从 左 到 右 数 的 第 2 个 位 置 以 右 ) }， 将 该 部 分 设 为 A 区 ， 第 3 列 ( 绝 对 求 
MID 的 第 1 行 找到 115 万 以 上 《〈 下 面 最 后 一 DAREN 指数 列 对 应 的 刻度 表 上 ， 从 左 到 
SERA S 的 部 分 ， 将 该 部 分 BK, 在 A 区 和 B 区 分 另 te as Te Ax 
和 B 区 的 3 个 点 互相 一 一 对 应 ， 这 3 个 点 都 属于 A、B 两 个 区 的 共同 点 ， 查找 这 
(右上 和 角 的 年 份 刻 度 表 ) 为 2010、2011、2012。 如 果 A 区 和 B 区 仅 能 找到 两 个 共同 
， 那 么 就 查找 这 两 个 共同 点 所 对 应 的 年 份 。 
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: 
; 
; 
m 


绝对 求职 指数 


相对 求职 指数 


2008 2011 2014 





图 6-17 求职 散 点 图 矩阵 
分 析 图 6-17 可 以 看 出 ，2008 年 到 2010 年 期 间 的 求职 指数 在 上 升 ， 市 场 求职 人 数 出 现 


广 张 态势 ， 在 经 历 2011 年 到 2012 年 的 小 波动 后 ， 从 2012 年 开始 相对 求职 指数 在 逐年 下 


市 场 求职 人 数 呈 现 收 缩 态 势 。 


学 生成 绩 散 点 图 矩阵 
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首先 ， 输 入 如 下 的 R 代 码 加 载 并 显示 学 生成 绩 数据 : 





> source<-read.csv("xscj.csv") 


> source 
学 号 

期 末 考 试 

平时 成 绩 

性 别 

1 201 60 74 1 
2 202 66 64 1 
3 203 91 82 0 
4 204 94 49 0 
5 205 60 88 0 
6 206 48 48 0 
7 207 74 84 0 
8 208 45 35 0 
9 209 97 89 工 
10 210 74 98 0 
11 211 67 64 0 
12 :212 50 50 0 
13 213 85 94 1 
14 214 70 64 0 





然后 ， 绘 制 散 点 图 和 矩阵， 代码 如 下 : 





> pairs(source )# 如 图 


6-18 所 示 ， 性 别 为 





1 则 表示 男 ， 性 别 为 


0 则 表示 女 。 





学 生成 绩 散 点 图 矩阵 如 图 6-18 所 示 o 


wawa bbt. com DRXATHHE 

















图 6-18 ”学 生成 绩 散 点 图 矩阵 


从 图 6-18 可 以 看 出 ， 第 3 行 第 2 列 的 散 点 图 表明 : Tp 
线性 相关 性 ， 平 时 成 绩 较 好 的 ， 期 末 考 试 成 绩 也 较 好 ;， 平 时 成 绩 较 差 的 
裔 也 较 差 。 观 察 第 3 行 第 4 列 的 散 点 图 ， 可 以 看 到 男生 (性别 为 1 ) 的 成 绩 分 布 比 加 ， 
范围 大 致 为 40 分 到 95 分 ， 而 女生 《性 别 为 0) 的 成 绩 分 布 则 集中 在 两 部 分 ， 
这 部 分 的 比例 相对 于 第 二 部 分 略 小 ， 第 二 部 分 集中 在 80 分 以 上 ， 这 部 分 
5 
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3. 学 生成 绩 协 同 图 

协同 图 Ccoplot) 是 一 种 多 变量 的 探索 性 分 析 图 形 ，R 语 句 的 基本 形式 为 
coplot(y~x|z)， 其 中 x 和 y y 是 数值 型 向 量 ，z 是 同 长 度 的 因子 ， 对 于 z 的 每 一 水 平 ， 均 绘制 相 
应 组 的 x 和 y 的 散 点 图 。 寂 面 按 性 别 分 组 来 会 制 学 生成 绩 的 协同 图 。 


首先 ， 设 置 因子 ，R 代 码 如 下 : 





> source<-read.csv("xscj.csv") 
> attach(source) 
> factor( 性 别 


,labels = c(" 女 


"ng 
1 A 





"))->sex 
> sex 
[1] % 





HE 
力 





女 
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Par 


im im 
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[25] 男 


im 
Parf 


im im 
Pa 


Ph 


im 
oH 





im 
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im 
Parf 





im 
Par 


im 
Pa 
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Pa 





im 
Par 
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然后 ， 以 性 别 来 分 组 ， 绘 制图 形 ，R 代 码 如 下 : 


> coplot (平时 成 绩 ~ 期 末 考 试 





|sex) 





结果 如 图 6-19 所 示 。 


从 图 6-19 可 以 看 出 ， 男 生 的 平时 成 绩 与 期 末 考 试 成 绩 更 成 线性 关系 ， 二 成 
绩 不 错 ， 期 末 考 试 的 成 绩 也 不 错 。 而 女生 对 于 这 点 则 不 是 非常 明显 ， 尤 其 是 在 平时 成 绩 及 
格 的 情况 下 ， 平 时 成 绩 好 并 不 意味 着 期 末 考 试 的 成 绩 一 定 


4. 学 生成 绩 点 图 
首先 ， 设 置 因子 ，R 代 码 如 下 所 示 : 








> source<-read.csv("xscj.csv") 
> attach(source) 
> factor (cut (平时 成 绩 





15))->pjcj 


然后 ， 分 区 上段 绘制 全 部 学 生平 时 成 绩 的 点 图 : 








> dotchart(table(pjcj)) 





结果 如 图 6-20 所 示 。 
5. 产 品 销量 三 维 图 
首先 ， 读 入 产品 销量 数据 ，R 代 码 如 下 : 





> goods<-read.csv("goods.csv") 
> goods 
地 区 编码 





月 份 


È 
fh 
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1 工 1 1200 
2 1 2 3210 
3 工 3 123 
4 1 4 1111 
5 1 5 688 
6 1 6 2110 
7 1 7 1123 
8 1 8 6894 
9 1 9 1470 
10 1 10 1071 
11 1 11 2250 
12 1 12 1241 
13 2 1 2222 
14 2 2 1500 
15 2 3 3200 
16 2 4 1580 
17 2 5 S562 sce 
>attach(goods) 


i 
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图 6-19 ”成 绩 协 同 图 
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(86.2, 99.1] 


(73.4, 86.2] 


(60.6, 73.4] 


(47.8, 60.6] 


(34.9, 47.8] 





4 6 8 10 12 14 
图 6-20 ”平时 成 绩 的 点 图 
然后 ， 检 查 是 否 安 装 scatterplot3d 库 ， 安 装 过程 如 下 : 








> source("http://bioconductor.org/biocLite.R 


"y 
> biocLite("scatterplot3d") 





再 然后 ， 显 示 三 维 数 据 图 : 





> library(scatterplot3d) 
> scatterplot3d( 地 区 编码 





Att 
) 销量 


, highlight .3d=TRUE, pch=20, col.axis="blue", col.grid="]lightblue",grid=TRUE,type="h",main=" 销 量 一 览 
K 
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" Jab=c(4,12)) 





结果 如 图 6-21 所 示 。 
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图 6-21 销量 一 览 
由 图 6-21 可 见 ， 销 量 比较 好 的 主要 是 地 区 1 的 8 月 、 地 区 2 的 5 月 与 6 月 ， 地 区 3 的 销量 


不 容 乐 观 ， 处 于 滞销 状态 ， 地 区 4 的 销量 稍微 好 一 点 ， 但 销售 情况 仍然 很 差 ， 地 区 1 与 地 区 
2 的 销量 不 错 ， 最 高 销量 接近 7000。 
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最 后 分 析 一 下 1 号 地 区 的 销售 形势 ，R 代 码 如 下 : 








> Subset(goods, 地 区 编码 


==1)->diqu1 
> diqu1[2:3]->no1fx 
> noifx 

月 份 


1200 
3210 
123 
1111 
688 
2110 
1123 
6894 
1470 
10 10 1071 
11 11 2250 
12 12 1241 
> plot(no1fx,type="o" ,main="1 号 地 区 形势 


OONDUOBRWNE 
OONDOBRWNE 





> abline(h=mean(no1fx 下 销量 


) ) 


> axis(4,mean(no1fx$ 销 量 
) ) 


结果 如 图 6-22 所 示 。 
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销量 


1000 2000 3000 4000 5000 6000 7000 


1874.25 


0 


月 份 
图 6-22 1 号 地 区 销售 形势 图 


观察 图 6-22 可 以 看 出 ，1 号 地 区 在 2 月 和 8 月 的 销售 情况 不 错 ， 而 3 月 和 5 月 的 销售 形势 
ee 

















ee are TT 与 XY 散 点 图 类 似 ， 但 可 表现 的 数据 信息 量 








更 多 ， RESTS WO TPAD HLH, 0 ee 在 R 语 言 
中 ， 用 symbols0) 函 数 作 气泡 图 ， 具 体 的 调用 格式 如 下 





Symbols ( 
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y=NULL， 


Circles， 


squares, 


rectangles, 


stars, 


thermometers, 


boxplots, 


inches=TRUE, 


add=FALSE, 


fg=par ( 


"col") 


bg=NA, 


xlab=NULL, 


ylab=NULL, 


Main=NULL, X1im=NULL, 


ylim=NULL, 





以 刚才 的 产品 销量 为 例 ， 输 入 以 下 R 语 言 代码 绘制 产 


> symbols( 月 份 


;地 区 编码 





,Circles = 销量 


,Xaxt="n", yaxt="n", inches 


> axis(1,at=1:12,1as=3) 


= .55 )# 绘 制图 ， 但 不 显示 刻度 。 


#X 轴 刻度 
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mére 














H 


品 销 








> axis(2,at=1:4,1as=3) #y 轴 刻度 





结果 如 图 6-23 所 示 。 


wi 


Bhi 


dt BS 








Hot 


图 6-23 ”产品 销量 气泡 图 














观察 图 6-23 可 以 看 出 ， 人 表示 销量 最 好 ，2 号 地 区 的 
5 月 和 6 月 的 销量 差不多 ， 且 都 比较 大 。 


7. 产 品 销量 星 图 

星 图 的 绘制 方法 如 下 : 

1) 若 设 变量 数目 为 nv 个 ， 则 将 圆周 n 等 分 ， 连 接 圆 心 和 这 n 个 分 点 ， 将 形成 n 条 半径 ， 
这 些 半 径 依次 定义 为 变量 的 年 标 办 ， 标 以 适当 的 刻度 。 
a 对 给 定 的 一 次 观测 值 ， 把 n 个 变量 值 分 别 取 在 相应 的 坐标 轴 上 ， 将 它们 连接 成 n 个 
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下 面 使 用 星 图 来 分 析 4 个 地 区 各 月 份 的 销量 ，R 代 码 如 下 : 
首先 ， 调 用 和 整理 数据 。 





> goods<-read.csv("goods.csv") 





> goods 
地 区 编码 

月 份 

销量 
1 1 1 1200 
2 1 2 3210 
3 1 3 123 
4 1 4 1111 
5 1 5 688 
6 1 6 2110 
7 1 7 1123 
8 1 8 6894 
9 1 9 1470 
10 1 10 1071 
11 1 11 2250 
12 1 12 1241 
13 2 1 2222 
14 2 2 1500...... 





> yue4<-subset (goods, 地 区 编码 


==4, select = c( 销 量 


) ) 
> yue3<-subset(goods， 地 区 编码 





==3, select = c( 销 量 


)) 
> yue2<-subset(goods， 地 区 编码 





==2, select = c( 销 量 


)) 
> yue1<-subset(goods， 地 区 编码 





==1, select = c( 销 量 


v= 
< 


row.names(mygoods)<-c(1:4) 
mygoods 
1 


V 


2 3 4 5 6 7 8 9 10 11 12 
1200 3210 123 1111 688 2110 1123 6894 1470 1071 2250 1241 
2222 1500 3200 1580 5562 5841 1860 981 658 789 1020 1120 
2144 2243 134 235 486 985 235 1020 558 995 886 398 
1820 1588 5440 470 1500 720 845 476 984 745 368 872 


AUNE 





然后 调用 stars 函 数 绘 制图 形 ， 通 过 将 draw.segments 参 数 设置 为 TRUE， 指 定 绘制 的 星 
图 是 由 圆 弧 连 接 而 成 的 。 








>stars(mygoods, draw. segments=TRUE ) 
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结果 如 图 6-24 所 示 。 





图 6-24 ”产品 销量 星 图 








观察 图 6-24 可 以 看 出 ，1 号 地 区 和 2 号 地 区 的 销量 最 好 。 
6.4.2 ”多 元 数据 相关 性 分 析 


1. 皮 尔 森 相关 系数 与 协 方差 
(1) 皮尔 森 相 关系 数 


皮尔 森 相关 系数 (Pearson correlation coefficient) 也 称 皮 尔 森 积 矩 相关 系数 ， 是 一 种 
线性 相关 系数 ， 皮 尔 森 相关 系数 是 用 来 反映 两 个 变量 线性 相关 程度 的 统计 鲁 ， 用 
Da a (线性 相关 ) ， 如 表 6-4 所 示 。 其 值 介 于 -1~1 之 间 ， 负 数 为 负 相 


表 6-4 ”皮尔 森 相 关系 数 
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BURR Sh BURA ASL 相 大 性 


-0.09 ~ 0.0 0.0 ~ 0,09 天 


EPE) 05 ~ 10 i 
皮尔 森 相 关系 数 的 计算 公式 如 下 : 


sa cn 人 了 _ ELX-14)(2-1)] 
"GG 0.0, 
上 式 中 ， 分 子 是 协 方差 ， 分 子 是 两 个 变量 标准 差 的 乘积 ，X 和 Y 的 标准 差 都 不 为 0。 


HF u= EQ), or = E-E E-EN, TERM, 并 有 
E{(X-E(N))(Y-E(0)) RECT) -EX)E(Y 
因此 ， 也 可 将 皮尔 森 相 关系 数 的 计算 公式 写成 如 下 形式 : 
T BU) BAEC) | 
{E(x} (EN) JE?) -(E()) 


皮尔 森 相 关系 数 是 对 称 的 ， 即 : px y =py,x 。 
此 外 ， 可 基于 样本 对 协 方差 和 标准 差 进行 估计 ， 可 以 得 到 样本 相关 系数 r 如 下 ; 





利用 样本 相关 系数 推断 总 体 中 的 两 个 变量 是 否 相 关 ， 可 以 用 t 统 计量 对 总 体 相 关系 数 
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为 0 的 原 假 设 进行 检验 。 奋 t 检 验 显 著 ， 则 拒绝 原 假 设 ， 即 两 个 变量 是 线性 相关 的 ;大 t 栓 
验 不 显 苦 ， 则 不 能 拒绝 原 很 设 ， 即 两 个 变量 不 是 线性 相关 的 。 


(2) 协 方差 

协 方差 表示 的 是 两 个 变量 总 体 误 差 的 方差 ， 这 与 只 表示 一 个 变量 误差 的 方差 不 同 。 
如 果 两 个 变量 的 变化 趋势 一 致 ， a a S: A SOIE, ie 个 也 大 
那么 这 两 个 变量 之 间 的 协 方差 就 是 正 值 。 如 果 两 个 变量 的 变化 趋势 相 

反 ， 即 其 中 一 个 大 于 自身 的 期 望 值 ， 男 外 一 个 却 小 于 自身 的 期 望 值 ， 那 么 这 两 个 变量 之 间 

by ea A. 

(3) 实例 剖析 

下 面 以 某 商 品 的 销量 及 原料 分 析 数 据 为 例 ， 分 析 原 料 对 某 商 品 销量 的 影响 ，R 代 码 如 














> read.csv("ABCgoods.csv") ->mygoods 
> mygoods 
A 原料 


B 原 料 


C 原 料 


1 0.85 0.13 0.02 4500 
2 0.33 0.23 0.44 1800 
3 0.64 0.24 0.12 3900 
4 0.38 0.12 0.50 1000 
5 0.10 0.20 0.70 740 
6 0.28 0.17 0.55 990 
7 0.15 0.80 0.05 910 
8 0.18 0.70 0.12 930 
> cov(mygoods) ->myanalysis.cov# COV 为 协 方差 矩阵 


> cor(mygoods)->myanalysis.cor# cor 为 相关 系数 和 矩阵 


> myanalysis.cov 
A 原料 


B 原 料 
C 原 料 
商品 销量 
ARE 
0.06716964 -0.03470179 -0.03246786 368.2161 
BEH 
enn -0.03470179 0.07174107 -0.03703929 -147.3554 
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-0.03246786 -0.03703929 0.06950714 -220 .8607 商 品 销量 


368.21607143 -147.35535714 -220.86071429 2235941.0714 
> myanalysis.cor 
A 原料 


人 A 原料 


1.0000000 -0.4998980 -0.4751737 0.9501366 
BEH 


-0.4998980 1.0000000 -0.5245223 -0.3679187 





C 原 料 


-0.4751737 -0.5245223 1.0000000 -0.5602393 商 品 销量 


0.9501366 -0.3679187 -0.5602393 1.0000000 


在 R 中 可 调用 cor.test 进 行 检测 ， 它 默认 采用 pearson 检 验 (method 参 数 ) ， 置 信 区 间 水 
默认 为 0.95(conf.level)，p 值 <0.05 则 拒绝 原 假设 ， 并 认为 两 变量 线性 相关 。 代 码 如 下 所 





> cor .test(~A 原 料 


+B 原 料 


,data=mygoods) 
Pearson's product-moment correlation 
data: A 原料 


and B 原 料 


t = -1.4138, df = 6, p-value = 0.2071 
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 
-0.8907805 0.3161398 
sample estimates: 
cor 
-0.499898 
> cor.test(~A 原 料 


+C 原 料 


, data=mygoods) 
Pearson's product-moment correlation 
data: A 原料 


and C 原 料 
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t = -1.3228, df = 6, p-value = 0.2341 
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 
-0.8838848 0.3450297 
sample estimates: 
cor 
-0.4751737 
> cor .test(~A 原 料 


+ 商品 销量 


,data=mygoods) 
Pearson's product-moment correlation 
data: A 原料 


t = 7.4634, df = 6, p-value = 0.0002985 
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 
0.7427838 0.9911796 
sample estimates: 
cor 
0.9501366 
> cor.test(~C 原 料 


+ 商品 销量 


,data=mygoods) 
Pearson's product-moment correlation 
data: Chit} 


ws A Ay 


and 商品 销量 


t = -1.6567, df = 6, p-value = 0.1487 
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 
-0.9068866 0.2386486 
sample estimates: 
cor 
-0.5602393 
> cor.test(~B 原 料 


, data=mygoods) 
Pearson's product-moment correlation 
data: Bhi} 


ws A Ay a 


and 商品 销量 


t = -0.9692, df = 6, p-value = 0.3699 
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 
-0.8517618 0.4546201 
sample estimates: 
cor 
-0.3679187 
> cor.test(~B 原 料 


+C 原 料 
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, data=mygoods) 
Pearson's product-moment correlation 
data: Bhi} 


and CHX} 


t = -1.5091，df = 6，p-value = 0.182 
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 
-0.8974739 0.2857795 
sample estimates: 
cor 
-0.5245223 





分 析 以 上 cor.test 的 调用 结果 ， 可 以 看 出 : 
-A 原料 、B 原 料 、C 原 料 互 相 线性 无 天， 应 属于 不 需要 按 指 定 配 比 配 置 的 。 
:A 原料 与 商品 销量 线性 相关 。 

2. 影 响 因素 分 组 
下 面 利 用 相关 性 分 析 ， 来 分 析 某 类 商品 的 网 络 销售 情况 ， 并 将 影响 因素 分 组 。 
首先 ， 读 入 数据 : 

















> read.csv("sales2.csv")->mysales 
> mysales 
价格 


好 评 率 


平均 评论 数 





,1.3。， 品牌 知名 度 





. 工 .3 ， 月 平均 销量 

1 50 94 150 3 3 350 
2 150 68 120 2 2 290 
3 190 88 100 2 2 160 
4 1500 85 5 1 1 40 
5 69 98 40 2 2 64 
6 800 73 3 2 1 20 
7 32 88 180 3 3 400 
8 500 90 6 2 1 10 
9 182 68 19 2 2 70 
10 23 89 190 3 2 500 





然后 ， 计 算 相 关系 数 : 





> cor(mysales) 
价格 


好 评 率 
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月 平均 评论 数 
包装 精美 程度 
. 工 ,3 .价格 
1.0000000 -0.1648994 -0.6538897 -0 .7769090 好 评 率 
-0.1648994 1.0000000 0.2529134 0 .2933271 月 平均 评论 数 
-0.6538897 0.2529134 1.0000000 0 .8197505 包 装 精美 程度 
.1.3. -0.7769090 0.2933271 0.8197505 1 .0000000 品 牌 知名 度 
.1.3. -0.7531132 0.2556607 0.7921685 0 .7619048 月 平均 销量 
-0.5897317 0.1777546 0.9798662 0.8104570 
品牌 知名 度 


. 工 ,3， 月 平均 销量 


价格 


-0.7531132 -0.5897317 好 评 率 


0.2556607 0.1777546 月 平均 评论 数 





0.7921685 0.9798662 包 装 精美 程度 


Pal 0.7619048 0.8104570 品 牌 知名 度 


idaga 1.0000000 0.7291934 月 平均 销量 





0.7291934 1.0000000 





再 然后 ， 对 各 个 指标 的 相关 度 进行 分 析 。 按 相关 度 将 指标 进行 分 组 、 ,您 相关 系数 辣 
的 指标 归 为 同一 组 ， SATIS STIR 绝对 值 最 大 相关 度 - F F 
销量 的 相关 系数 为 0.9798662， 包 装 精 = 程度 .1.3. 与 月 平均 销量 的 相关 系数 为 0 8104570, 
将 这 3 个 指标 归 为 一 组 ， 然 后 找到 价格 与 faa 2 相关 系数 0.7531132， 将 这 两 个 指标 
归 为 一 组 ， 好 评 率 为 一 组 ， 这 样 一 共 分 为 了 三 


We 《保证 权 值 之 和 为 1) ， 分 别 设 置 如 


























H 








1) 第 1 组 中 月 平均 销量 的 权 值 为 0.8， 月 平均 评论 数 的 权 值 为 0.15， 包 装 精 美 程度 .1.3. 
ee ee 因为 包装 精美 程度 数字 越 小 ， 表 示 越 精美 ， 指 
IN RE WITH) o 


2) 第 2 组 ， 价 格 的 权 值 为 0.8， 品 牌 知 名 度 .1.3. 的 权 值 为 0.2〈 计 算 时 为 3- 品 牌 知 名 
度 ， 内 为 品牌 知名 度 数字 越 小 ， 表 示 越 知名 ， 指 标 是 这 样 设计 的 ) 


3) 第 3 组 就 一 个 指标 好 评 率 。 不 设 权 值 。 
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最 后 ， 计 算 这 3 组 的 得 分 。 





> attach(mysales) 
> group1<- (月 平均 评论 数 





*0 .15+(3- 包 装 精美 程度 





.1.3. )*9.95+ 月 平均 销量 


*0.8)/3 
> group2<-((3- 品 牌 知名 度 


.1.3.)*0.2+ 价 格 


*0.8)/2 
> group3<- 好 评 率 


> myavg=(group1*0.45+group2*0.1+group3*0.45)/3 
> names(myavg)<-c(1:10) 
> sort(myavg,decreasing=TRUE) 
10 4 7 1 2 3 6 8 
35.08500 34.39917 30.97667 29.89167 24.70583 22.88917 22.44833 20.62083 
5 9 
18.48583 15.57500 分 析 


SoOrt 函 数 的 结果 ， 可 看 出 ， 按 综合 排名 ， 从 高 到 低 的 商品 序号 如 下 : 


10 4 7 1 2 3 6 8 5 
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6.5 ”小 结 
对 于 统计 中 的 描述 性 分 析 来 说 ， 最 好 的 学 习 方 法 就 是 实践 ， 光 看 理论 比较 难于 理 
峰 度 系数 、 累 计 分 布 概率 、 概 率 密度 函 
正 态 分 布 等 分 布 模 


解 。 本 章 首先 以 实例 的 形式 分 折 了 正 态 分 布 函数 、 
数 及 曲线 、 分 位 点 、 正 态 检验 与 分 布 拟 合 等 数据 统计 指标 ， 然 后 介绍 了 正 态 
型 ， 最 后 ， 讲 解 了 多 变量 数据 分 析 和 可 视 化 、 数 据 相 关 性 分 析 等 知识 。 


=> 
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思考 题 





(1 
, sil 


行 分 村” 


(3 
酬 ?的 正 ; 
(4 








本 书 例子 中 的 美国 地 震 


下 载 
累计 分 布 概率 的 散 点 图 。 





下 载 本 书 
‘i 度 。 


) 下 载 本 书 例 子 中 的 全 国 就 业 ; 
态 分 析 函 数 、 峰 度 系数 、 


) 下 载 本 书 例子 中 的 商品 销售 








= 





jiyouxiangz.csv, / 分 析 “ 平 均 劳 动 报 

















os 








HAUS o 
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查 情 况 数据 
Pee eas 概 : 
情况 数据 sales2.csv， 以 价格 为 X 轴 ， 以 月 平均 评论 
-F Cee ele 的 气 i 泡 图 ， 分 析 价 格 和 月 平均 评论 数 处 于 哪些 区 间 内 时 ， 

(5) 下 载 本 书 例子 中 的 学 生成 冶 | 
制 关 于 期 末 考 试 的 三 维 图 ， 分 析 哪 些 学 


CSV; 


Sig 


密度 函数 及 曲线 、 直 方 图 。 


WEA E 






































外 、 学 号 、 期 末 考 试 为 指标 ， 


台数 据 earthquakes.csv， 对 于 其 中 震 深 Depth 进 行 分 


列子 中 的 美国 地 震 台 数据 earthquakes.csv， 对 于 其 中 震级 Magnitude 进 


ZAN 
给 


第 7 章 ”假设 检验 与 回归 模型 案例 
7.1 假设 检验 


a a 重要 的 统计 推断 问题 ， 它 认为 小 概率 事件 在 一 
不 可 能 发 生 的 ， tai 的 某 个 假 设 是 真实 的 ， 那么 不 利于 或 不 能 支持 
一 假设 的 事件 在 一 Vacs aes ee ` 可 能 发 生 的 ， 要 是 在 一 次 试验 中 小 概率 事件 发 
2 假设 的 真实 性 ， 拒绝 这 一 假设 。 县 体 来 说 ， 想 检验 其 人 
称 为 零 假 设 null othesis) ， 和 零 假设 通常 反映 的 是 研究 者 对 未 知 参数 的 看 法 ， 相 对 于 
零 假设 的 其 他 PRIM ont or Be (alternative acne 它 反 映 了 执行 检验 者 对 参数 可 
能 数值 的 对 立 的 看 法 ， 也 就 是 说 ， 对 立 假设 通 蜗 才 是 研究 涯 最 相知 道 的 。 


假设 检验 的 过 程 ， 可 可 以 用 法 庭审 理 的 例子 来 说 明 | 如 果 现 在 法 庭 上 有 一 名 被 告 ， 假 
设 该 被 告 是 清白 的 ， 那么 检察 官 必须 要 提出 是 够 的 i E 据 证 明 被 告 的 确 有 罪 。 在 证 明 被 告 有 
罪 前 ， 被 告 是 被 假设 为 清白 的 ， 假设 被 告 ah OR ee er 
arg 个 假设 ， 则 是 对 立 假设 。 RE 提出 的 证 据 ， 以 确定 该 被 告 有 罪 ， 则 需 
经 过 检验 











se 







































































7.1.1 二 项 分 布 假设 检验 





考察 由 n 次 随机 试验 组 成 的 随机 现象 ， 它 要 同时 满足 以 下 条 件 : 

:重复 进行 n 次 随机 试验 。 

0 次 试验 相互 独立 。 

.每 次 试验 仅 有 两 个 可 能 的 结果 。 

neared 失败 的 概率 为 1-p。 

在 上 述 四 个 条 件 下 ， 假 设 X 表 示 n 次 独立 重复 试验 中 成 功 出 现 的 次 数 ， 显 然 X 是 可 以 
取 0，1，...， O NIIN a EE S 这 个 分 布 称 为 二 项 分 布 ， 记 为 Bn，Pp)。 

ee 设 有 k 次 成 功 和 n-k 次 失败 ，k 次 成 功 可 以 出 现 于 n 次 试验 的 任何 一 
次 ，n 次 试验 中 正好 得 到 K 次 成 功 的 概率 如 下 : 








Bi 有 








n-k 
1 四 -)) 


在 假设 检验 中 ， 经 常 遇 到 非 正 态 总 体 的 统计 数据 ， 这 类 数据 可 使 用 二 项 分 布 的 总 体 
假设 检验 方法 ， 下 面 以 实例 进行 讲解 。 


1. 游 戏 策略 调整 


某 游戏 的 某 区 域内 经 常 发 生 暴 力 PK 事件 ， 从 而 给 在 这 个 区 域内 做 任务 的 新 手 玩家 和 

某 些 老 玩家 带 来 了 很 多 困扰 ， 以 往 发 生 这 类 事件 的 概率 为 25%， 对 这 个 区 域 的 游戏 策略 进 

We ee 结果 有 20 个 被 迫 卷 入 暴力 PK， 那 么 这 个 游 
策 y R 




















> binom. test(x=20, n=300, p=0.25,alternative="less") 
Exact binomial test 
data: 20 and 300 
number of successes = 20, number of trials = 300, p-value < 2.2e-16 
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alternative hypothesis: true probability of success is less than 0.25 
95 percent confidence interval: 
0.00000000 0.09540198 
sample estimates: 
probability of success 
©.06666667 





”这 里 将 原 假设 H0 设 为 p>0.25， 而 备 择 假设 H1 设 为 p<0.25。 观 察 以 上 结果 ， 在 95% 的 
置信 率 基 础 上 ，p 值 <2.2e-16<0.05， 因 此 可 以 认为 该 游戏 策略 的 调整 对 维护 这 个 区 域 的 秩 
序 起 到 了 一 定 的 效果 。 


2. 游 戏 宝石 出 产检 测 
某 网 络 游戏 中 有 一 区 域 为 宝石 采矿 区 ， 玩 家 在 此 开采 宝石 的 比例 应 为 高 级 宝石 : 中 


级 宝石 : 低级 宝石 =3 : 11 : 23， 抽 取 671 个 玩家 的 采矿 记录 ， 开 采 数 量 为 70 : 190 : 411, 
请 问 实际 出 产 比例 是 否 符合 理论 要 求 ? 

















> chisq.test(c(70,190, 411), p=c(3,11, 23)/37) 
Chi-squared test for given probabilities 

data: c(70, 190, 411) 

X-squared = 5.0106, df = 2, p-value = 0.08165 





观察 以 上 结果 ，p 值 为 0.08165， 结 果 大 于 0.05 接 受 原 假设 ， 实 际 出 产 比例 符合 理论 要 


7.1.2 ”数据 分 布 检验 


1. 正 态 分 布 检测 


人 。 例 如 ， 设 显著 性 水 平 为 0.05， 检 查 以 下 
数据 是 否 为 正 态 分 布 。 


12, 22, 67, 89, 56, 10, 124, 235, 77, 88, 66, 79, 80, 82 








R 代 码 如 下 : 





> x<-c(12,22, 67,89,56,10, 124, 235, 77, 88, 66, 79, 80, 82) 
> shapiro.test(x) 
Shapiro-wilk normality test 
data: x 
W = 0.8173, p-value = 0.008236 





观察 以 上 结果 ，p 值 小 于 显著 性 水 平 0.05， 因 此 可 拒绝 原 假设 ， 因 为 原 假 设 为 符合 正 
态 分 布 ， 因 此 可 认为 该 数据 不 符合 正 态 分 布 。 


再 来 看 一 个 例子 ， 如 下 面 R 代 码 所 示 : 





> shapiro.test(rnorm(100, mean = 5, sd = 3)) 
Shapiro-wilk normality test 

data: rnorm(100, mean = 5, sd = 3) 

W = 0.9914, p-value = 0.7787 





观察 以 上 结果 ，p 值 大 于 显著 性 水 平 0.05， 不 能 拒绝 原 假设 ， 因 此 可 认为 该 数据 符合 


正 态 分 布 。 


2.Kolmogorov-Smimov 检 验 
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Kolmogorov- Smimov 检 验 (K-S 检 验 ) 基于 累积 分 布 函 数 ， 用 于 检验 一 个 经 验 分 布 是 
否 符合 某 种 理论 分 布 或 比较 两 个 经 验 分 布 是 否 有 显著 性 差异 。 下 面 以 对 某 后 台 服 务 程序 的 
稳定 性 答 测 为 例 逮 行 讲解 。 


现 对 某 服 务 器 的 某 后 台 服 务 程序 进行 稳定 性 检测 ， 记 录 8 次 无 故障 稳定 工作 的 小 时 
数 ， 分 别 为 : 240、180、320、190、160、60、400、340， 经 估计 它 符合 X=1/290 的 指数 分 
布 ’ 下 H 来 验证 下 稳定 性 的 分 布 : 























> ks.test(servtime, "pexp",1/290) 
One-sample Kolmogorov-Smirnov test 

data: servtime 

D = 0.299, p-value = 0.394 

alternative hypothesis: two-sided 








观察 以 上 结果 ，p 值 >0.05， 无 法 拒绝 原 假设 ， 因 此 无 故障 稳定 工作 小 时 数 符合 该 分 


提示 : R 语 言 中 ，pexp 是 一 个 指数 分 布 函数 ， 指 数 分 布 有 以 下 系列 的 R 函 数 : 
.dexp 给 出 了 密度 : dpexp(x, rate=1, t=0, log=FALSE) 

.pexp 给 出 了 分 布 函 数 : ppexp(q, rate=1, t=0, lower.tail=TRUE, log.p=FALSE) 
qexp 给 出 了 分 位 数 功 能 : gpexp(p, rate=1, t=0, lower.tail=TRUE, log.p=FALSE) 
:rexp 给 出 了 随机 产生 的 偏离 :rpexp(n，rate=1，t=0) 





7.1.3” 正 态 总 体 均值 检验 


假设 茶 游 戏 服务 器 接受 游戏 客户 端 及 来 的 报告 ， 容 是 某 场 景 载 入 时 间 的 报告 GX 
入 时 间 符 合 正 态 分 布 ) ， 平均 载 入 时 间 要 求 小 于 225。 现 提 取 报 告 的 部 分 数据 ， 检 验 载 入 
时 间 是 否 正常 ， 役 显 著 性 水 平 为 0.05， 用 R 语 言 分 析 ， 代 码 如 下 (x 为 时 间 》: 








> x<-c(220,218,210, 220, 215, 221, 212, 225, 209, 230, 180, 182, 150, 190, 230, 227, 240, 225) 
> t.test(x, alternative = "less", mu = 225) 
One Sample t-test 

data: x 

t = -2.5922, df = 17, p-value = 0.009493 
alternative hypothesis: true mean is less than 225 
95 percent confidence interval: 

-Inf 220.5051 

sample estimates: 
mean of x 

211.3333 





ME ERAR, ptHA0.009493, 7)F ise VE7K7F0.05, AHHA} RBR. ME 
Hy PIB NIT F225, 因此 ， 可 选择 备 择 假 设 ， 即 : 平均 载 入 时 间 小 于 225。 


也 可 将 平均 载 入 时 间 大 于 225 设 为 备 择 假设 ， 而 平均 载 入 时 间 小 于 225 设 为 原 假 设 ， 
用 R 语 言 分 析 ， 代 码 如 下 : 








> t.test(x, alternative = "greater", mu = 225) 
One Sample t-test 
data: x 
t = -2.5922, df = 17, p-value = 0.9905 
alternative hypothesis: true mean is greater than 225 
95 percent confidence interval: 


202.1616 Inf 
sample estimates: 
mean of x 
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211.3333 





观察 上 述 结果 ，p 值 为 0.9905， 大 于 显著 性 水 平 0.05， 无 法 拒绝 原 假设 ， 原 假设 为 平 
均 载 入 时 间 小 于 225， 因 此 ， 可 认为 平均 裁 入 时 间 小 于 225， 考 入 时 间 正 常 。 





7.1.4 PIERRE 








列 联 表 是 观测 数据 按 两 个 或 更 多 个 属性 (定性 变量 ) 分 类 时 所 列 出 的 频数 表 。 比 
如 :对 随机 抽取 的 1000 人 按 性 别 〈 男 或 女 ) 及 色觉 〈 正 常 或 色盲) 两 个 属性 分 类 ， 可 以 得 
到 如 表 7-1 所 示 的 二 行 二 列 的 列 联 表 。 








表 7-1 ”性别 与 色觉 列 联 表 








下 面 以 满意 度 列 联 表 为 例 进行 讲解 ， 表 7-2 是 某 类 商品 价格 与 客户 满意 度 的 列 联 表 。 
表 7-2 ”满意 度 与 价格 列 联 表 








可 通过 列 联 表 数 据 的 独立 性 对 价格 与 客户 满意 度 之 间 的 关系 进行 分 析 ， 在 R 语 言 中 可 
通过 chisq.test 函 数 来 完成 检测 ; 





> c(20,56,34,10, 33,21, 32, 66, 24) ->x 
> c(3,3)->dim(x) 


x 
[1] [,2] [,3] 
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[1,] 20 10 32 
[2,] 56 33 66 
[3,] 34 21 24 


> chisq.test(x) 
Pearson's Chi-squared test 
data: x 
X-squared = 6.8985, df = 4, p-value = 0.1413 





观察 以 上 结果 ，p>0.05 说 明 不 拒绝 原 假 设 ， 两 个 变量 独立 无 关 ， 价 格 与 客户 的 满意 
度 之 间 没有 关系 。 


此 外 ， 当 列 联 表 中 有 频数 低 于 4 时 ， 最 好 使 用 fisher 进 行 精确 检测 。 例 如 : 某 网 上 商 
PMA fee 骨 的 测试 ， 验 证 自动 导 RANE AE, 商场 分 别提 供 了 
普通 购买 通道 和 自动 导购 系统 通道 Da K7- SARATIK. 

















表 7-3 高档 商品 测试 列 联 表 





对 表 7-3 的 数据 进行 fisher 检 测 ，R 语 言 代 码 如 下 : 





> c(11,3,9,12)->x 
> dim(x)<-c(2,2) 
> fisher.test(x) 
Fisher's Exact Test for Count Data 

data: x 
p-value = 0.04614 
alternative hypothesis: true odds ratio is not equal to 1 
95 percent confidence interval: 

0.8730177 33.8560814 
sample estimates: 
odds ratio 

4.662271 
> 





观察 以 上 结 p uo OSERE, 因此 认为 自动 导购 系统 有 效 ，odds ratio>1 ZA 
存在 正 相关 关系 ， 即 通过 自动 导购 系统 通道 进入 的 顾客 越 多， 该 商品 的 购买 率 就 越 大 。 


7.1.5 “符号 检测 





入 号 从 测 表 过 于 从 样本 全 与 总 体 中 基 个 位 置 《比如 中 位 数 ) MEK, mee 
G5 ARNO BUO ES MMR MA ER OIE. ONS E MUTE RE, 


1. 某 商场 VIP 客户 信息 推送 
以 某 商场 VIP 客户 广告 推送 为 例 ， 某 商场 需要 针对 某 类 商品 建立 该 类 商品 的 VIP 大 客 








p 
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户 ， 以 便 定 期 癌 该 类 客户 推送 相关 广告 务 部 门 推荐 了 客户 A， 从 数据 库 中 随机 抽 
取 了 100 个 客户 资料 ， 统 计 他 们 前 4 个 季度 的 平均 季 消 费 数 据 〈 在 这 里 用 平均 随机 数 模 拟 数 
人 ed) ti (位 于 中 位 数 以 上 〉 。 首 先 ， 构 造 数 

? ta ails H : 








= 








> sample(200:50000, 100) ->sale 

> sale 
[1] 8447 13987 8809 44437 22973 28093 30594 28060 21101 45155 36128 30129 
[13] 556 33977 9283 35094 903 32885 11639 15533 29150 47368 4993 5376 
[25] 1869 15975 25120 33530 31767 41845 39623 3586 22671 16128 14814 24993 
[37] 45830 10349 43989 35650 45179 35282 27204 5485 22990 21475 14533 42852 
[49] 15986 28411 16683 15832 27207 19062 10256 34549 46159 16315 43097 40038 
[61] 27758 14936 26161 18694 25139 13208 26837 30171 13663 14082 46909 26498 
[73] 7830 35810 15183 41769 8880 47928 13387 33231 28978 39486 6309 19344 
[85] 12935 41976 13429 16291 31159 33646 1742 48160 43169 40165 38915 24941 
[97] 25181 30077 19475 26836 

> 





然后 ， 使 用 sum(sale>29900) 表 示 所 有 大 于 该 客户 平均 消费 水 平 的 样本 数 ， 进 行 


binom. test 检测: 





> binom.test(sum(sale>29900), length(sale),al="less") 
Exact binomial test 
data: sum(sale > 29900) and length(sale) 
number of successes = 38, number of trials = 100, p-value = 0.01049 
alternative hypothesis: true probability of success is less than 0.5 
95 percent confidence interval: 
0.0000000 0.4667535 
sample estimates: 
probability of success 
0.38 
> 
95 percent confidence interval: 
0.0000000 0.4667535 





” ”这 里 ，binom.test 使 用 的 是 二 项 分 布 B (100，1/2)〉 的 检测 ， 每 次 抽样 要 么 M>=M0， 
要 么 M<M0， 成 功 的 概率 为 112， 即 在 中 位 数 以 上 《 含 中 位 数 ) 和 中 位 数 以 下 的 概率 均 为 
0.5。 单 侧 区 间 估 计 的 上 界 为 0.4667535， 小 于 原 假设 出 现 的 概率 0.5， 因 此 拒绝 了 原 假 设 。 


本 例 中 的 假设 为 HO:M>=M0，H1:M<M0。 其 中 ，M0 为 该 客户 的 消费 金额 ，M 为 样 
本 的 中 位 数 ， 代 表 平均 消费 水 平 ， 原 假设 为 平均 消费 水 平 比 该 客户 的 消费 金额 大 ， 备 择 假 
设 为 平均 消费 水 平 比 该 客户 的 消费 金额 小 ， 如 果 备 择 假设 成 立 ， 则 代表 拒绝 原 假设 ， 且 该 
客户 在 这 类 商品 的 消费 能 力 处 于 中 上 。 


最 后 ， 观 察 binom.test 分 析 结 果 的 p 值 ， 它 等 于 0.01049， 小 于 0.05， 拒 绝 原 假设 ， 再 观 
察 95% 的 置信 区 间 (95 percent confidence interval) ， 其 上 限 为 0.4667535， 低 于 0.5， 仍 拒 
绝 原 假设 ， 因 此 ， 该 客户 的 消费 金额 高 于 该 类 商品 的 客户 中 间 水 平 ， 处 于 中 上 层 消费 ， 可 
以 考虑 将 其 设 为 VIP 客 户 。 














Q.. sum SR RER ERRARE. COUR HAARA: 





> x<-c(1,3,9,20, 41) 

> x>7 

[1] FALSE FALSE TRUE TRUE TRUE 
> sum(x>7) 

[1] 3 








2. 虚 拟 道具 促销 
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某 游 戏 公司 对 X 游 戏 的 茶 类 虚拟 道具 进行 了 为 期 6 周 的 促销 测试 ， 以 增加 其 全 
用 了 以 下 两 种 促销 手段 ， 请 问 这 两 种 促销 手段 的 效果 相同 吗 ， 如 果 效 果 相 同 ， 则 可 
采用 这 两 种 促销 手段 ， 搞 类 似 的 促销 活动 ， 数 据 如 表 7-4 所 示 。 























表 7-4 相对 未 促销 前 两 种 促销 手段 所 增加 的 销量 





编写 R 代 码 如 下 : 





> a<-c(50,60,45,62,48,59) 
> b<-c(39, 68, 58, 64,52, 61) 
> binom.test(sum(a>b),length(a) ) 
Exact binomial test 

data: sum(a > b) and length(a) 
number of successes = 1, number of trials = 6, p-value = 0.2188 
alternative hypothesis: true probability of success is not equal to 0.5 
95 percent confidence interval: 
0.004210745 0.641234579 
sample estimates: 
probability of success 

0.1666667 














观察 以 上 结果 ，p 值 为 0.1666667， 大 于 0.05， 不 能 拒绝 原 假设 ， 原 假设 是 促销 手段 A 
的 销量 增加 数 比 促销 手段 B 多 ， 且 有 明显 差距 ， 因 此 可 认为 ，A 比 B 的 促销 效果 好 。 


Q 提示 sum(a>b) 表 示 a 大 于 b 的 数量 ， 


sum(a<b) 表 示 a 小 于 b 的 数量 。 
3. 某 商场 顾客 群 分 析 


某 网 上 商场 对 购买 A 类 商品 的 顾客 群 进行 分 析 ， 发 现 他 们 更 襄 欢 同时 购 天 B 类 或 C 天 
商品 ， 下 面 随机 抽取 了 其 中 的 20 个 顾客 作为 样本 ， 购 买 B 类 商品 的 为 b>， 购买 C 类 商品 的 为 
A TERR 部 分 数据 如 表 7-5 所 示 。 (完整 数据 可 参见 不 书 源码 包 的 
Sal@o.CSV o 

















表 7-5 ”顾客 群 购买 情况 
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加 可 将 原 假 设 定 为 这 类 顾客 群 更 喜欢 同时 购买 C 商 品 ， 而 备 择 假设 是 更 喜欢 同时 购买 B 
商品 。 此 外 ， 以 95% 的 置信 度 进行 检 测 ， 显 著 水 平 取 0.05。 编 写 如 下 R 人 代码; 











read.csv("sale3.csv")->mysale 

c_count<-sum(mysale$b==0 & mysale$c==1) 

b_count<-sum(mysale$b==1 & mysale$c==0) 

binom. test (c_count, b_count+c_count, p=1/2,al="less", conf .level=0.95) 
Exact binomial test 

data: c_count and b_count + c_count 

number of successes = 4, number of trials = 17, p-value = 0.02452 

alternative hypothesis: true probability of success is less than 0.5 

95 percent confidence interval: 

0.0000000 0.4605494 

sample estimates: 

probability of success 

0.2352941 


> 
> 
> 
> 





> 








分 析 上 述 结果 ，p=0.02452，Pp 值 小 于 0.05(100%-95%=5%=0.05)， 可 拒绝 原 假设 (更 
欢 同 时 购买 C 商 品 ) ， 而 备 择 假设 成 立 ， 购 买 A 商 品 的 客户 更 喜欢 同时 购买 B 商 品 。 同 
站 可 以 看 到 单 侧 区 间 上 界 为 0.4605494《〈 低 于 0.5) ， 这 里 也 表明 要 拒绝 原 假设 。 














penan iini 


O.. 该 案例 中 ， 同 时 购买 B 和 C 商 品 的 客户 不 用 列 入 样本 容量 进行 计算 。 
7.1.6” 秩 相关 检验 
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1.spearman 秩 相关 检验 


eee 产生 秩 相 关系 数 r， 相 互 独立 时 ， 
E(r)=0; 正 相 关 时 ，r 为 正 值 ， 负 相关 时 ，I 为 负 值 ; EN e 下 面 对 某 商品 每 








Jal IRA Sas CAT eRe 表 7-6 是 连续 6 周 的 统计 数据 
表 7-6 每 周 的 点 击 次 数 与 销量 








编写 R 代 码 如 下 : 





> sales<-c(150, 210, 90, 190, 230, 211) 
> hits<-c(310, 480,190, 400, 590, 520) 
> cor.test(hits, sales,method="spearman") 
Spearman's rank correlation rho 
data: hits and sales 
S = 0, p-value = 0.002778 
alternative hypothesis: true rho is not equal to 0 
sample estimates: 
rho 
1 
> 








观察 以 上 结 Pp 值 0.002778<0.05， 因 此 拒绝 原 候 役 ， 认 为 两 个 变量 是 相关 的 。 此 
外 ， rho>1 表 示 正 相关 ， rho<1 表 示 负 相关 ， E(rho)= 0 表示 相互 独立 无 关 。 综 上 所 述 ， 每 周 
的 点 击 次 数 与 每 周 的 销量 是 正 相 关 的 ， 点 击 的 次 数 越 多 ， 销 量 就 越 多 。 


2.Wilcoxon 秩 检验 


Wilcoxon 秩 检验 考虑 了 符 o A 值 与 总 体 中 位 数 差 的 符号 ) ， 而 且 考 
虑 了 观测 值 与 原 假 设 某 位置 的 具体 差距 的 大 小 


以 购物 网 站 的 网 页 改版 为 例 ; pani AB Ve ES PX Se OP SS n 问 网 页 进行 了 
改版 ， 并 能 同时 保留 改版 前 的 网 页 和 改版 后 的 网 页 供 顾客 选择 浏览 ， 通 过 一 段 时 间 的 测试 
Jay 对 通过 两 种 网 页 进行 购买 的 行为 进行 分 析 ， 抽取 其 中 的 7 个 商品 进 ep 查看 改版 
的 效果 。 销 量 如 表 7-7 所 示 。 


表 7-7 网 页 改版 前 后 的 销量 数据 
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kalm 


RRA MAAS PRAHARA 网 页 改版 后 的 销量 
10001 380 530 
10002 {10 500 
10003 190 506 
10004 315 191 
10005 186 180 
10006 300 388 
10007 14 





在 400 以 上 。 设 定 原 假 设 为 销量 提升 达到 期 竺 水平， 该 类 商品 中 有 一 半 商 品 的 销量 在 400 以 
在 400 以 下 。R 代 码 如 下 : 








>sales<-c(530, 500,506, 497, 280, 388,124) 
>wilcox.test(sales,mu=400,alternative="less",correct=FALSE, exact=FALSE, conf. 
int=TRUE) 
Wilcoxon signed rank test 

data: sales 
V = 15, p-value = 0.5671 
alternative hypothesis: true location is less than 400 
95 percent confidence interval: 

-Inf 506.0001 
sample estimates: 
(pseudo )median 

406.0668 
> 








p 值 为 0.5671，P>0.05， 不 能 拒绝 原 假 设 ， 再 观察 置信 度 为 95% 的 区 间 的 估计 上 限 为 
506.001。 因 此 ， 销 量 中 位 数 在 改版 后 达到 了 400 以 上 。 


@ 提示 。 ”以 上 代码 中 ，alternative 表 示 备 择 假 设 ，correct 表 示 在 计算 P 值 时 是 否 


采用 连续 性 修正 ，exact 表 示 是 否 精确 计算 P 值 ，conf.int 设 定 是 否 输出 置信 区 间 。 
那 能 不 能 再 乐观 些 ， 销 量 中 位 数 能 否 达到 600 以 上 呢 ?” 编写 如 下 R 代 码 进行 检测 : 


























> wilcox.test(sales,mu=600,alternative="less",correct=FALSE, exact=FALSE, conf. 
int=TRUE) 
Wilcoxon signed rank test 

data: sales 
V = 0, p-value = 0.00898 
alternative hypothesis: true location is less than 600 
95 percent confidence interval: 

-Inf 506.0001 
sample estimates: 
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(pseudo )median 
406.0668 
> 





=0.00898 小 于 0.05， 显 然 需要 拒绝 原 假 设 〈 销 量 中 位 数 大 于 600) ， 不 能 如 此 乐观 地 
将 销量 中 位 数 估 计 到 600 以 上 。 


然后 ， 验 证 新 版 网 页 是 否 提高 了 该 类 商品 的 销量 。R 代 码 如 下 : 














> salesnew<-c(530, 500,506, 497, 280, 388,124) 

> salesold<-c(380, 410, 290, 375,186, 300, 60) 

> wilcox.test(salesnew, salesold, alternative="greater", paired=TRUE) 
Wilcoxon signed rank test 

data: salesnew and salesold 

V = 28, p-value = 0.007813 

alternative hypothesis: true location shift is greater than 0 





观察 上 述 结果 ， 可 以 看 出 ， 原 假设 为 新 版 网 页 与 老 版 网 页 效果 相同 ， 备 择 假设 为 新 
人 p=0.007813， 小 于 0.05， 因此 拒绝 原 假设 ， 新 版 网 页 能 提高 该 类 商品 











@ 提示 。 paired 参 数 表示 样本 是 否 属于 成 对 样本 ，TRUE 表 示 是 成 对 样本 。 


下 面 以 某 游戏 的 区 域 策 略 调整 为 例 ， 假 设 某 游戏 在 某 区 域内 调整 了 策略 (更 新 地 
图 、 怪 物 等 ) ， 使 该 区 域 相对 于 B 职 业 玩家 来 说 ， 更 适合 于 A 职业 玩家 进行 升级 和 活动 ， 
游戏 开发 商 对 在 该 游戏 区 域内 活动 的 A 职业 玩家 和 B 职 业 玩家 采取 了 随机 有 奖 问卷 方式 ， 
收集 该 区 域 的 活动 满意 度 ， 调 查 评分 (满分 为 100 分 如 表 7-8 所 示 。 


表 7-8 两 类 职业 玩家 满意 度 调查 表 


i [rll 


_、 将 原 假设 H0 设 为 调整 策略 后 ，A 职 业 玩家 与 B 职 业 玩家 无 差异 ， 备 择 假设 H1 是 A 职 、 
玩家 比 B 职 位 玩家 更 满意 。R 代 码 如 下 : 


85 











> a<-c(80, 96,84, 79, 81,92, 75,85) 

> b<-c(68, 75,71, 92,66) 

> wilcox.test(a,b,alternative="greater", exact=FALSE, correct=TRUE) 
Wilcoxon rank sum test with continuity correction 

data: a and b 

W = 33, p-value = 0.03326 

alternative hypothesis: true location shift is greater than 0 





观察 上 述 检测 结 0.03326<0.05， 因 此 拒绝 原 假设 ， 游 戏 策略 调整 效果 较 显 著 ， 
A 职业 玩家 更 愿意 a 域内 活动 和 和 升级， 





7.1.7 Kendall 相 关 检 验 


Kendall 相 关 检 验 通 过 协同 进行 检测 ， 设 x 和 y 两 个 变量 进行 检测 ， 如 果 (xj-xi (yj- 
yi)>0, MXT G yi), (xj, yA RMI; 反之 ， 如 果 (xj-xi)(yj-yi)<0， 则 称 对 子 是 
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不 协同 ee 过 将 协同 对 子 代 入 Kendall 相 关系 数 ， 再 计算 变量 之 间 的 相关 性 。 对 表 7-6 的 
数据 进 ae 首先 ， 构 造 数据 。R 代 码 如 下 : 


> sales<c(150, 210, 90,190, 230, 211) 
> hits<-c(310, 480, 190, 400, 590, 520) 








然后 ， 将 method 参 数 设 为 kendall， 进 行 分 析 : 





> cor.test(hits, sales,method="kendall") 
Kendall's rank correlation tau 

data: hits and sales 
T = 15, p-value = 0.002778 
alternative hypothesis: true tau is not equal to 0 
sample estimates: 
tau 

工 

















察 以 上 结果 ， 结 论 仍 是 正 相 关 ，p 值 0.002778 小 于 0.05， 因 此 拒绝 原 假 设 。 
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7.2 ”回归 模型 






































回归 是 研究 一 个 随机 变量 Y 对 男 一 二 个 变量 (X) X) 或 一 组 变量 (X1，X2，,.,.，Xk) 的 相依 关 
系 的 统计 分 析 方 法 ， 它 通过 规定 因 变量 和 自 变 量 的 关系 来 确定 变 BETA ALAA 建立 
回归 模型 ， 并 根据 实测 数据 来 求解 模型 的 各 个 参数 ， 并 评价 回归 模型 是 否 能 够 很 好 地 拟 合 


实测 数据 。 





7.2.1 ”回归 预测 与 显著 性 检验 





下 面 按 方程 y=Bo +B1 x+e 进 行 一 元 线性 回归 和 预测 。 
首先 ， 建 并 回归 模型 。R 代 码 如 下 : 








> x<-c(12,9,3,7,17,19) 
> y<-c(28,20, 8,13,36, 39) 
> lm(y~1i+x)->mylm.1m 


> mylm.1m 
Call: 
lm(formula =y~1+ x) 
Coefficients: 
(Intercept) x 
1.284 2.034 
> summary(mylm. 1m) 
Call: 
lm(formula = y ~ 1 + x) 
Residuals: 
1 2 3 4 5 6 
2.3048 0.4076 0.6132 -2.5239 0.1335 -0.9351 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 1.2840 1.6609 0.773 0.482617 
X 2.0343 0.1332 15.273 0.000107 *** 
Signif. codes: © '***' 0.001 '**' 0.01 '*' 0.05 '.' O.1 ' ' 41 
Residual standard error: 1.811 on 4 degrees of freedom 
Multiple R-squared: 0.9831, Adjusted R-squared: 0.9789 


F-statistic: 233.3 on 1 and 4 DF, p-value: 0.0001072 





观察 以 上 结果 ， 息 可 以 看 出 ，Residuals 部 分 指出 x6 个 值 
的 残 差 ，Coefficients 部 分 指出 Bo 预测 为 1.2840， 其 标准 差 (Std.Error) 为 1.6609; x 的 参数 


(By 部 分 ) 预测 为 2.0343， 其 标准 差 (Sid Errr). 为 0.1332。 
然后 ， 指 定 自 变 量 〈 如 x 值 ) Ja, WAZE Coyle) 进行 预测 ，R 代 码 如 下 : 

















> myx<-data.frame(x=c(20, 28, 19)) 
predict (mylm.1m,myx, interval= "prediction", level=0.95) 
fit lwr upr 


v 


1 41.96934 35.63207 48.30661 
2 58.24346 49.98260 66.50432 
3 39.93508 33.78026 46.08989 
> 





观察 以 上 结果 ， 在 置信 度 为 95% 的 情况 下 ， 如 果 x=20， 则 y 值 预测 为 41.96934，y 值 预 
测 落 在 区 间 [35.63207，48.30661]， 如 果 x=19， 则 y 值 预测 落 在 区 间 [33.78026，46.08989]。 


此 外 ， 还 可 对 回归 模型 中 的 参数 进行 预测 。 


一 元 线性 回归 模型 y=Bo +B1 x+e 为 例 ，e 是 随机 误差 ， Bo 和 B1 是 参数 。 设 a 为 显著 
水 平 ， 则 置信 度 为 1-gq， 其 参数 的 区 间 估 计 如 下 : 
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[B-sd(B) Er B +sd( Hela) 


按照 上 述 公 式 ， 计 算 上 述 回 归 模 型 参数 在 95% 置 信 度 〈 显 音 水 平 a=0.05) 的 预计 区 
间 ，R 代 码 如 下 : 








> summary(mylm.1m)->mylm. summary 
># 取出 参数 预测 部 分 


> mylm.summary$coefficients->mycof 
> mycof 
Estimate Std. Error t value Pr(>|t|) 
rec) 1.284040 1.6609290 0.7730852 0.4826172233 
2.034265 0.1331944 15.2729058 0.0001071897 





ane 


a 
> a<-0.05 
># mylm.lm$df .residual 为 模型 的 自由 度 ， 其 值 为 























n-2, 





XER 











y 向 量 包 括 元 素 的 个 数 


> mylm.1m$df .residual->mydf 

> lower_bound<-mycof[,1]-mycof[,2]*qt(1-a/2,mydf) 
> upper_bound<-mycof[,1]+mycof[,2]*qt(1-a/2,mydf) 
> dimnames(mycof)[[1]]->myrowname 

> c(" 预 计 值 


ii "下 界 值 
o " 上 界 值 


")->mycolname 
># 显示 参数 预测 区 间 





> matrix(c(mycof[,1], lower_bound, upper_bound), ncol=3, dimnames=list (myrowname, my 
colname) ) 
预计 值 


下 界 值 


EJA 


(Intercept) 1.284040 -3.327439 5.895518 
X 2.034265 1.664458 2.404072 
> 





分 析 以 上 结果 ，x 的 系数 参数 预计 在 [1.664458，2.404072] 的 范围 内 。 
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7.2.2 ”回归 诊断 

















通过 对 回归 进行 显著 性 检验 ， 可 检测 回归 效果 ， 尤 其 是 在 多 元 线性 回归 分 析 中 ， 无 











法 用 散 点 图 直观 地 判断 众多 变量 x1 ，x2 wee XPT ，Xi+1 > 与 y 之 间 是 否 存在 线 
性 关系 的 时 候 ， JRA HE ENE S GE HERE GO AL RC 
MI. 








Um zi RAE, MH summary žit, R PRÉ Aer a. RAIA 
元 线性 回归 y=Bo +B1 x1 +B2 x2 1 +e 为 例 。R 代 码 如 下 : 








> x1<-c(9, 223, 83, 21, 193) 

> x2<-c(98,52, 185,263,76) 
>c (237,415, 479, 630, 438) ->y 
> Im(y~x1+x2) ->mylm. 1m 

> summary(mylm. 1m) 

Call: 

lm(formula = y ~ x1 + x2) 
Residuals: 


1 2 3 4 5 
2.462 2,037 -39.732 23.131 12.102 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
recht) 10.9635 57.2566 0.191 0.8658 


1.2985 0.2341 5.547 0.0310 * 
5 2.1621 0.2622 8.246 0.0144 * 
Signif. codes: © '***' 9.001 '**' 0.01 '*' 0.05 '.' 0.1' "1 
Residual standard error: 33.69 on 2 degrees of freedom 
Multiple R-squared: 0.9714, Adjusted R- pies 0.9429 
F-statistic: 34 on 2 and 2 DF, p-value: 0.0285 





依次 分 析 summary 函 数 的 结果 ， 进 行 显著 性 检验 : 


1) 分 析 Coefficients 部 分 。B0 的 预测 值 为 10.9635，B1 的 预测 值 为 1.2985， 标 准 差 为 
0.2341, Bo 的 预测 值 为 2.1621， 标 准 差 为 0.2622; By 的 t 值 为 5.547，B2 
Pr(>|t) 值 即 P 值 ， 为 了 统计 量 的 显著 水 平 ， 将 该 值 与 显著 性 水 平 比较 ， 可 决定 该 自 变量 是 
接受 回归 系数 的 假设 检验 ， 该 值 越 小 越 显 著 ， 回 归 效 果 越 好 ，pB1 Mp2 人 
-o 但 线性 不 显著 ， 后 面 的 一 个 星 号 也 说 明了 这 一 点 ， 自 变量 系数 勉强 通 


T GN 表明 该 自 变 量 的 回归 系数 不 显著 ， 0 a 
方程 是 否 正 确 ， 或 者 剔除 一 些 不 显著 的 变量 ， 重 新 建立 更 简单 更 精确 的 线性 回归 方程 。 


分 析 Residual standard error 部 分 ， 该 数值 若 较 小 则 比较 适合 ， 本 例 中 残 差 的 标准 
#38 69, BUBB KBR ALLA 


3) 分 析 Multiple R-squared 部 分 ， 该 部 分 为 相关 系数 的 平方 ， 该 数值 越 大 ， 说 明 回归 
效果 越 理 租 。 本 例 中 相关 系数 的 平方 秆 为 0.9714 


4) 分 析 F-statistic 部 分 的 p-value 值 ， 该 值 为 F 统 计量 的 显著 水 平 ， 可 用 该 值 进 行 回归 
eee Se 数 信 越 小 越 好 ， 越 小 则 说 明 回归 方程 越 显著 。 本 例 中 的 p 值 为 0.02857， 
久 


此 外 ，R 还 提供 了 influence.measures 进 行 回归 诊断 。 下 面 建立 了 一 个 效果 显著 的 回归 






























































模型 





> x1<-c(9, 223,83, 21, 193) 
> x2<-c(98, 52,185, 263, 76) 
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> y<-x1+3*x2+runif(5,2,18) 
> Im(y~x1+x2) ->mylm. 1m 
> summary(mylm. 1m) 


Call 
lm(formula = y ~ x1 + x2) 
Residuals: 

2 3 4 5 
0.03635 2.17997 1.16226 -0.40196 -2.97661 
Coefficients: 


Estimate Std. Error t value Pr(>|t|) 
(Intercept) 3.06344 4.67353 0.655 0.579476 
x1 1.03200 0.01911 54.010 0.000343 *** 
x2 3.02659 0.02140 141.412 5e-05 *** 
Signif. codes: © '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1' ' 4 
Residual standard error: 2.75 on 2 degrees of freedom 
Multiple R-squared: 0.9999, Adjusted R-squared: 0.9998 
F-statistic: 1.163e+04 on 2 and 2 DF, p-value: 8.595e-05 





观察 以 上 结果 ，Pr(>|) 值 和 p 值 远 小 于 0.05， 说 明 回归 方程 和 回归 系数 都 非常 显著 ， 
回归 效果 非常 好 。 





7.2.3 回归 优化 

















通常 可 通过 逐步 回归 来 优化 回归 方程 ， 从 可 供 选择 的 所 有 自 变 量 中 选 出 对 Y 有 显著 影 
ee eu eee ce [EH RAIstepPk BOAT VA sc BUSA ANA, 1% 





函数 以 AIC 信 息 统计 熏 汶 光 准则 ， 选 择 最 小 的 AIC 信 息 统 计量 来 加 除 自 变量 。 
下 面 举 例 说 明 : 





> x1<-c(9, 223, 83, 21, 193) 

> x2<-c(98,52, 185,263,76) 
>X3<-c(25, 35, 48,58, 42) 

> y<-c(841, 1570, 2774, 3923, 2137) 
> Im(y~x1+x2+x3) ->mylm.1m 

> summary(mylm. 1m) 


Call: 
lm(formula = y ~ x1 + x2 + x3) 
Residuals: 
2 3 4 5 
8.075 39.072 -103.947 64.654 -7.854 
Coefficients: 


Estimate Std. Error t value Pr(>|t|) 
(Intercept) -1.395e+03 2.824e+02 -4.938 0.127 
x1 4.873e-02 3.330e+00 0.015 0.991 
x2 2.386e+00 6.309e+00 0.378 0.770 
x3 7.973e+01 3.262e+01 2.444 0.247 
Residual standard error: 129 on 1 degrees of freedom 
Multiple R-squared: 0.997, Adjusted R-squared: 0.988 
F-statistic: 110.5 on 3 and 1 DF, p-value: 0.06978 








WEERA, summary hi area AA NE th 效果 很 不 理想 ，x1、x2、x3 的 系数 
P 值 全 部 大 于 0.05， 回 归 系 数 不 显 背 ， 回 归 方程 F 分 布 的 p 值 更 不 显著 。 


下 面 调用 step 函 数 进 行 优 化 。R 代 码 如 下 : 








> step(mylm.1m)->mylm.step 
Start: AIC=48.55 
y ~ x1 + x2 + x3 

Df Sum of Sq RSS AIC 
- x1 1 4 16642 46.551 
= X2 1 2380 19018 47.219 
<none> 16638 48.550 
= X3 1 99409 116048 56.262 
Step: AIC=46.55 


Df Sum of Sq RSS AIC 
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<none> 16642 46.551 
- x2 1 55362 72004 51.875 
- x3 1 1388382 1405024 66.731 





从 以 上 step 结 果 可 以 看 出 ， 选 择 去 掉 x1， 可 以 使 AIC 的 值 为 最 小 值 46.551， 因 此 在 最 
终 的 回归 方程 中 删除 x1。 





> summary(mylm.step) 
Call: 


lm(formula = y ~ x2 + x3) 
Residuals: 


1 2 3 4 5 
7.660 40.327 -103.459 64.579 -9.108 
Coefficients: 


Estimate Std. Error t value Pr(>|t|) 
(Intercept) -1396.4131 180.3749 -7.742 0.01628 * 
x2 . 2954 0.8899 2.579 0.12314 
x3 80.1922 6.2082 12.917 0.00594 ** 


Signif. codes: © '***' 0.001 '**' 0.01 '*' 0.05 '.'0.1''1 
Residual standard error: 91.22 on 2 degrees of freedom 
Multiple R-squared: 0.997, Adjusted R-squared: 0.994 
F-statistic: 331.5 on 2 and 2 DF, p-value: 0.003007 





观察 以 上 结果 ， 从 summary 函 数 对 优化 后 的 回归 方程 的 分 析 结 果 可 以 看 出 ， 相 对 没 优 

化 前 ， Fo, standard error 值 减少 为 91.22，x2、x3 系 数 的 P 值 减少 为 0.12314、0.00594， 

3 的 系数 通过 检测 ，x1 因 为 不 显著 最 终 没 有 加 入 回归 方程 中 ，F 分 布 的 p-value 值 也 减少 为 
0.003007, KRSEBURALIG NL BEAMINSTER 








7.24 主 成 分 回归 











ee a a ; 








数 几 个 主 成 分 的 方法 ， 这 些 主 成 分 能 反映 原始 变量 的 绝 大 部 分 信息 ， 表 示 为 原始 变量 的 线 
Mone. AERE HUNGER AE So LAG Aa LION iH ORO EA ETE 


MARAMA) | EARS (X2) NTT TELE 


1. 主 成 分 分 析 
首先 ， 使 用 R 语 言 的 princomp 函 数 进行 主 成 分 分 析 : 











wawai bbt .cam DERE ATCHE 























> buy<-data.frame( 

+ X1<-c(200, 600,60, 400,150), 

+ X2<-c(120, 480, 20,320,80), 

+ X3<-c(800, 3000, 300, 2200, 450), 
+ X4<-c(210, 320,50, 260,130), 

+ Y<-c(4,5,2,4,3) 
+ 
> 
> 
工 


) 

princomp(~X1+X2+X3+X4, cor=TRUE)->mypr 

summary(mypr, loadings=TRUE) 
mportance of components: 

Comp.1 Comp.2 Comp.3 Comp.4 

Standard deviation 1.9711809 0.32537035 0.092379136 6.793839e-03 
Proportion of Variance 0.9713885 0.02646647 0.002133476 1.153906e-05 
Cumulative Proportion 0.9713885 0.99785498 0.999988461 1.000000e+00 
Loadings: 

Comp.1 Comp.2 Comp.3 Comp.4 
X1 -0.506 -0.164 0.644 0.550 
X2 -0.505 -0.289 0.203 -0.788 
X3 -0.502 -0.381 -0.726 0.274 
X4 -0.487 0.863 -0.130 








观察 以 上 结果 ，summary 函 数 输出 了 主 成 分 分 析 信息 ， 该 信息 主要 包括 以 下 内 容 : 
‘Standard deviation 行 表示 的 是 主 成 分 的 标准 差 〈 主 成 分 的 方差 的 开 方 ) 。 
‘Proportion of Variance 行 表示 的 是 方差 的 贡献 率 。 

‘Cumulative Proportion 行 表示 的 是 方差 的 累积 贡献 率 。 


-Loadings 栏 表示 降 维 后 主 成 分 对 应 于 原始 变量 X1， X2、X3、X4 的 系数 。 在 调用 
summary 函 数 时 ， 可 以 将 参数 loadings 设 为 TRUE， 才 能 输出 loadings 信 息 。 


2. 降 维 


该 网 上 商场 的 满意 度 指 标 有 网 友 评 论 次 数 (X1) 、 好 评 次 数 (X2) 、 商 品 浏览 人 数 
(X3) 和 商品 已 上 市 天 数 (X4) 共 4 个 ， 其 中 第 1 个 主 成 分 Comp.1 ee 9713885, 
第 2 个 主 成 分 Comp.2 的 贡献 率 为 0.02646647， 这 两 个 主 成 分 的 CAKE O 

99.79%, JF ipi 两 个 主 成 分 的 方差 贡献 率 很 小 ， 因 此 ， 可 将 后 面 两 个 主 成 分 去 掉 ， 实 
Oe PEE 
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Comp.l Comp.2 Comp.3 Comp.4 
图 7-1 网 上 商场 满意 度 指 标 碎 石 图 
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screeplot(mypr, type="lines") 














再 观察 对 满意 度 指标 分 析 结 果 中 的 loadings 栏 ， 可 以 将 前 两 个 主 成 分 写成 以 下 形式 : 
Z;=-01,506X;-0,505X;-0,502X;-0.487X, 
Z:=-(,164X;-0.289X)-0381.X:40.863X: 


3. 回 归 模 型 建立 
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接着 ， 可 以 建立 这 几 个 指标 与 满意 度 的 回归 模型 ， 根 据 前 面 的 主 成 分 分 析 结 果 ， 只 





选择 前 两 个 贡献 率 高 的 主 成 分 X1 与 X2， 建 立 回归 模型 ， 消 





nih 


T 





v 


pre<-predict(mypr) 
pre[,1]->buy$Z1# 第 一 主 成 分 


V 








> pre[,2]->buy$Z2# 第 二 主 成 分 

















> lm(Y~Z1+Z2, data=buy ) ->mylm# 建 立 回归 模型 
> summary(mylm) 
Call: 
lm(formula = Y ~ Z1 + Z2, data = buy) 
Residuals: 

工 2 3 4 5 
0.06267 0.15488 0.01870 -0.25828 0.02203 
Coefficients: 


Estimate Std. Error t value Pr(>|t|) 
(Intercept) 3.60000 0.09770 36.847 0.000736 *** 
Z1 -0.47551 0.04956 -9.594 0.010691 * 


Z2 1.15957 0.30028 3.862 0.060988 . 

Signif. codes: © '***' 0.001 '**' 0.01 '*' 0.05 '.'0.1''1 
Residual standard error: 0.2185 on 2 degrees of freedom 
Multiple R-squared: 0.9816, Adjusted R-squared: 0.9633 


F-statistic: 53.48 on 2 and 2 DF, p-value: 0.01836 





分 析 上 述 summary 函 数 的 执行 结果 ， 可 得 到 如 下 回归 方程 : 


Y=3.6-0.475 51x Zit 159 57x Z; 


4. 主 成 分 变量 变换 


最 后 ， 可 将 主 成 分 变量 进行 变换 : 








五 





归 系 数 








> coef (mylm)->beta# 


> loadings(mypr)->myloading# 载 荷 


> mypr$center->mybar# 均 值 


> mypr$scale->mysd# 标 准 差 


> (beta[2]*myloading[,1]+beta[3]*myloading[,2])/mysd->mycoef 
beta[1]-sum(mybar*mycoef)->beta0 
> c(betad, mycoef ) 
(Intercept) X1 X2 X3 X4 
1.3870124896 0.0002572658 -0.0005545049 -0.0001905035 0.0129419446 


V 














该 网 上 商场 的 购物 满意 度 的 最 终 回归 模型 如 下 : 
Y=1.3870124896+0.0002572658xX1 -0.0005545049xX2 -0.0001905035xX3 
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+0.0129419446xXy 


7.2.5 广义 线性 模型 





1. 广 义 线性 模型 概述 

义 线 性 模型 (Generalized Linear Model, GLM) 是 一 种 被 广泛 应 用 的 线性 回归 模 
式 ， 它 是 线性 模型 的 扩展 ， 其 特点 是 不 强行 改变 数据 的 自然 度量 ， 因 为 变量 的 总 体 均 值 可 
通过 过 排 线 性 或 线 件 连接 函数 个 燥 子 线 件 预 测 值 ， 建 立 起 可 解释 随机 变量 相关 性 的 函数 。 





























GLM 是 简单 最 小 二 乘 回归 的 扩展 ， 主 要 是 通过 连接 函数 ， 建 立 响应 变量 的 数学 期 户 
值 与 自 变 量 线性 组 合 的 预测 变量 之 间 的 关系 。 Te CBE EAS HU LY R H RN BOR 
布 ， 该 分 布 的 平均 数 h 可 由 与 该 点 独立 的 X 来 解释 : 


E(y)=h=g (XB) 


EAP, EY) Ny Xp 是 由 未 知 符 估 计 参 数 p 与 已 知 自 变量 X 构 成 的 线性 估计 


gE Bo oo! 则 为 连接 函数 反 函 数 。 表 7-10 是 经 典 的 连接 函数 及 其 反 函 数 ( 也 可 
wi 匀 值 函数 ) 














表 7-10 ”经典 的 连接 函数 及 其 反 函 数 


名 —# | am st 


XP= w=Xp 








ee AES Bete 于 诸如 属性 数据 、 计 数 数 据 等 离散 数 
变量 的 期 望 值 与 线 KATERA, 自 变量 的 线性 预测 pecs 
MARRARA TEGLM ARAL, is Bet RE OD ADS A AGE Be R 


























FER Hh Fi E FA GLM ek ZE Pe EA , eI gr eee aa 项 分 
Ai) ~ gaussian (1EAS4 Be ) . gamma (MHAI) 、poisson〔 泊 松 分 布 ) 


2. 广 义 线性 模型 实例 
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下 面 以 二 项 分 布 “binomaial ) 的 logistic 回 归 模 型 为 例 进 行 讲解 。 假 设 菜 网 上 商场 试 
图 建立 某 类 商品 的 购买 率 〈 购 买 量 /商品 页 面 浏览 次 数 ) 与 气候 之 间 的 关系 模型 ， 这 样 就 
oe ae 推断 该 类 商品 的 购买 率 ， 从 而 向 消 费 者 推荐 该 类 商品 。 样 本 

427-11 PTA © 














表 7-11 雨量 与 购买 率 


ibe 而 量 (小 为 0、 中 为 1、 大 为 2 购买 来 
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ie [小 为 0、 中 为 、 大 为 2 | 


首先 ， 建 立 广 义 线 性 模型 。R 代 码 如 下 所 示 : 


im 


> mysale<-data. frame( 


temperature<-c(22, 38,12, 33, 6,9, 29,17, 33, 31, 35,19,13,8), 


rainfall<-c(0,0,0,0,0,1,1, 
n<-rep(100,14), 


1,1,2,2,2,2,2), 


buy<-c(15, 27,11, 20, 9,18, 32, 22, 35, 69, 78, 39, 29, 25) 


) 
> mysale$y<-cbind(mysale$buy, mysale$n-mysale$buy ) 


> glm(y~temperaturet+rainfall, family=binomial, data=mysale) ->myglm 


> summary(myglm) 
Call: 


glm(formula = y ~ temperature + rainfall, family = binomial, 


data = mysale) 
Deviance Residuals: 

Min 1Q Median 
-1.5231 -0.8861 -0.1604 
Coefficients: 

Estimate Std. 
(Intercept) -3.23592 0. 
temperature 0.06136 0. 
rainfall 0.90678 0. 
Signif. codes: 0 '***' @. 
(Dispersion parameter for 

Null deviance: 243.940 
Residual deviance: 19.553 
AIC: 90.86 
Number of Fisher Scoring i 


3Q Max 
1.1531 2.3457 


Error z value Pr(>|z|) 
20961 -15.438 <2e-16 *** 


00633 9.694 <2e-16 
08067 11.240 <2e-16 


001 '**' 0.01 '*' 0.05 '. 
binomial family taken to be 1) 
on 13 degrees of freedom 
on 11 degrees of freedom 


terations: 4 
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观察 以 上 分 析 结 果 可 以 发 现 ， 回 归 参 数 为 Bo =-3.23592、B1 =0.06136、B2 
=-0.90678， 系 数 参 数 通 过 了 显著 性 水 平 a=0.05 的 检验 ， 回 归 模 型 如 下 : 


exp(-3.235 92+0.061 36 x temperature+0.906 78 x ramtall) 
p= 





|+exp(-3.235 92+0.061 36 x temperature+0.906 78 x ramntall) 


其 中 temperature 是 温度 ，rainfall 是 雨量 。 


接 看 ， 可 根据 该 回归 模型 进行 预测 。 比 如 温度 为 30C， 大 十 时 ， 该 类 商品 的 购买 率 
少 ? 

















为 多 
> predict(myglm, data.frame(temperature=30, rainfall=2) )->mypre 
> my 
0.41 
> exp(mypre)/(1+exp(mypre) ) ->mybuy 
> mybuy 
1 
0.603141 








观察 以 上 结果 ， 最 后 一 行 表 明 ， 大 雨 且 温度 为 30'C 时 ， 购 买 率 估计 为 60.3%。 
再 来 看 一 个 例子 ， 表 7-12 是 网 上 商场 某 类 商品 的 若干 名 回头 客 的 数据 。 
表 7-12” 某 类 商品 的 若干 名 回头 客 的 数据 
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商品 打折 赠品 数量 { 0-2) MISE ( 0 表示 不 购买 ，1 表示 购买 | 
082 0 0 
0.92 0 0 
0.68 0 0 
07 0 0 
0.62 0 l 
0.52 0 l 
042 0 
0,85 l 0 
0.95 l 0 
0.65 l l 
0.75 l 0 
0.7 l l 
0.5 l l 
0.38 l l 
0.85 2 l 
0.95 2 l 
0.65 2 | 
0.75 2 l 
0.6 2 l 
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商品 打折 mate ( 0-2) MISR | 0 表示 不 购买 ， 人 表示 购买 





对 表 7-12 的 数据 运用 GLM 进 行 分 析 ， 得 到 购买 率 (Y) 和 商品 打折 CX) N 
量 (X2) 的 回归 模型 。 


首先 ， 建 立 广 义 线性 模型 ，R 代 码 如 下 : 





的 
日 





品 数 





mysale<-data.frame( 
x1=c(0.82,0.92,0.68,0.7,0.62,0.52,0.42,0.85,0.95,0.65,0.75,0.7,0.5,0.38,0.85, 
0.95,0.65,0.75,0.6,0.48,0.98,0.3), 
X2=rep(c(@,1,2),c(7,7,8)), 
Y=c(0,6,0,0,1,1,1,0,0,1,0,1,1,1,1,1,1,1,1,1,9,1)) 

> 

> glm(Y~X1+X2, family=binomial, data=mysale) ->myg1m 

> summary(myglm) 

Call: 

glm(formula = Y ~ X1 + X2, family = binomial, data = mysale) 
Deviance Residuals: 


Min 1Q Median 3Q Max 
-1.72890 -0.04535 0.00108 0.08745 1.28906 
Coefficients: 

Estimate Std. Error z value Pr(>|z|) 

(Intercept) 24.388 14.086 1.731 0.0834 . 
X1 -39.360 22.348 -1.761 0.0782 . 
X2 6.373 3.751 1.699 0.0893 . 
Signif. codes: © '***' 0.001 '**' 0.01 '*' 0.05 '.'0.1''1 


(Dispersion parameter for binomial family taken to be 1) 
Null deviance: 28.841 on 21 degrees of freedom 

Residual deviance: 7.054 on 19 degrees of freedom 

AIC: 13.054 

Number of Fisher Scoring iterations: 8 

> 





观察 以 上 分 析 结 果 可 以 看 出 ， 回 归 参 数 为 Bg =24.388、B1 =-39.360, Bo =6.373， 系 数 


Wp 


数 通过 了 显赫 性 水 平 a=0.1 的 检验 ， 回 归 模 型 如 下 : 


exp(24.388-39.360 x Xi76.373 x X) 
I texp(24.388-39.360 x X;+6.373 x Xa) 


其 中 X1 是 商品 打折 ，X2 是 赠品 数量 。 
然后 ， 根 据 该 回归 模型 进行 预测 ， 分 别 从 以 下 几 种 情况 进行 预测 。 





P 
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1) 在 商品 打折 73%、 赠 品 数量 是 1 的 情况 下 ， 该 类 商品 的 购买 率 为 88.37%。R 代 码 如 








> predict(myglm, data,frame(X1=0.73,X2=1) )->mypre 
exp(mypre)/(1+exp(mypre) ) ->mybuy 
mybuy 


Vv 


0.8836742 


Vv 








E 不 会 被 回头 客 购买 。R 代 


amp 











re 在 商品 打 85 折 、 赠 品 数量 是 1 的 情况 下 ， 该 类 商品 很 可 
ID: 





> predict (myglm, data. frame(X1=0.85, X2=1) )->mypre 
> exp(mypre)/(1+exp(mypre) ) ->mybuy 
> mybuy 


0. 06323925 








有 可 能 被 回头 客 购买 。R 代 








本 在 商品 打 85 折 、 赠 品 数量 是 2 的 情况 下 ， 该 类 商品 非 * 
SY p: 





> predict (myglm, data. frame(X1=0.85, X2=2) )->mypre 
exp(mypre)/(1+exp(mypre) ) ->mybuy 
> mybuy 


Vv 


al 
0.9753328 


Vv 
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本 章 首先 讲述 了 假设 检验 ， 通 过 设立 零 假 设 〈 想 检验 其 正确 性 ) 与 对 立 假设 (通常 
反映 研究 者 对 未 知 参数 的 看 法 ， 相 对 于 零 假 设 的 其 他 论述 ) SOC SED Ho REE 
ai e 分 析 其 预测 区 间 值 ， 具 体 介绍 了 二 项 分 布 假设 检验 、 数 据 分 布 检验 、 

正 态 总 体 均 值 检 验 、 列 联 表 、 符号 检测 、 POSING. Kendall Se KAO 然后 ， 讲解 
了 回归 模型 的 若干 问题 ， 回 归 通 过 规定 因 变量 和 自 变量 的 关系 来 确定 变量 之 间 的 因果 关 
pao PA LTH 回归 显著 性 检验 、 回 归 诊 断 与 优化 、 EAA HIS) SREM 
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思考 是 


C1) 对 某 服务 器 进行 稳定 性 检测 ， 记 录 8 次 无 故障 稳定 工作 的 小 时 数 ， 分 别 为 : 
230、160、67、400、340， 经 估计 它 符合 和 = 1/280 的 指数 分 布 ， 验证 一 下 
Ke 


(2) 网 上 商场 某 类 些 商 品 经 常 发 生 投诉 问题 ， 以 往 发 生 投诉 的 概率 为 35%， 对 这 类 
商品 的 供应 商 进行 规范 和 约束 调 Wee, 随机 抽取 了 400 多 个 客户 ， 其 中 有 40 个 投诉 ， 策 略 
调整 是 否 有 效果 ? 


(3) 对 下 面 的 X 和 Y 进 行 Kendall 相 关 检 验 ， 检 测 其 相关 性 。 








> X<-c(150, 210, 90, 190, 230, 211) 
> Y<-c(40, 20,30,18, 28,22) 








(4) 对 因 变 量 y 和 自 变量 x1、x2、x3 建 立 线性 回归 模型 ， 并 进行 优化 。 











> x1<-c(9, 223,83, 21, 193) 

> x2<-c(108, 52, 180, 259, 82) 
> x3<-c(8,5,10, 9, 2) 

>c (237, 415, 479, 630, 438) ->y 








wawai bbt. cam DEE ATCHE 


























第 四 部 分 “机 器 学 习 实 战 篇 
， 威 以 躬 行 实践 为 先 ， 识 见 言论 次 之 。 
一 一 林 希 元 
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机 器 学 习 算 法 


学 习 就 是 在 不 断 重复 的 工作 中 使 自己 的 能 力 不 断 增强 或 改进 ， 在 下 一 次 执行 相同 或 
Live 时 ， 会 比 原来 做 得 更 好 或 效率 更 高 。 机 器 学 习 研 究 指 的 是 用 计算 机 来 模拟 或 实 
现 人 类 学 习 活动 ， a A e PRERANA AA 知识 和 新 技能 。 机 
器 学 习 的 内 部 表现 为 从 未 知 到 已 知 这 样 一 个 知识 增长 过 程 ， 其 外 部 表现 为 某 些 性 能 和 适应 
e ah 机 人 这 些 算法 使 系统 能 完成 原来 不 能 完成 
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8.1 神经 网 络 
1. 神 经 网 络 基 本 原理 


人 脑 由 上 千 亿 条 神经 组 成 ， 每 条 神经 平均 又 会 连接 到 几 于 条 其 他 的 神经 ， 通 过 这 
连接 方式 ， 神 经 可 以 收发 不 同 数量 的 能 量 。 神 经 一 个 非常 重要 的 功 人 
接收 并 不 是 立即 作出 响应 ， 而 是 将 它们 累加 起 来 ， 当 这 个 累加 的 总 入 
e U ORERE 量 发 送 给 其 他 的 神经 。 大 脑 通过 调节 这 些 连 接 的 数 
ITEN 


如 图 8-1 所 示 是 一 个 神经 元 的 模型 ， 神 经 网 络 复杂 多 样 ， 由 大 量 与 该 图 类 似 的 神经 
及 突 触 组 成 。 神 经 科学 界 的 共识 是 ， 人 类 大 脑 包含 1000 亿 个 神经 元 ， PAMARAAN 
突 触 ， 数 量 巨 大 ， 组 合 方式 复杂 ， 联 系 广泛 。 也 就 是 说 ， 突 触 传递 的 机 制 复杂 。 


现在 已 经 发 现 和 阐明 的 突 触 传递 机 制 有 : 突 触 后 兴奋 、 突 触 后 抑制 、 突 触 前 抑制 、 
突 触 前 nae 以 及 远程 抑制 等 。 在 突 触 传 递 机 制 中 ， 人 s 触 传递 机 能 的 
中 心 环 节 ， 而 不 同 的 神经 递 质 有 着 不 同 的 作用 性 质 和 特点 























图 8-1 大 脑 神经 元 
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人 工 神经 网 络 CANN) 是 一 种 模仿 生物 神经 网 络 结构 和 功能 的 数学 模型 ， 它 使 用 大 
Ce RICCI AA SROM BIE 每 个 “神经 
元 ”代表 - 的 输 每 两 个 “神经 元 ” 间 的 连接 代表 一 个 通过 
该 连接 信号 的 加 权 值 ， 称 之 为 权重 ， 当 于 人 工 神经 网 络 的 饮 忆 。 网 络 的 输出 则 根据 网 
Pain MESES ALE Gol GABLE IRL iM ea SPINAL. 人 工 神经 网 络 可 理解 为 对 
自然 界 某 种 算法 或 者 函数 的 逼近 。 


如 图 8-2 所 示 是 一 个 简单 的 人 工 神经 元 示意 图 。 ah, x1 Doe N 
入 ， 代 表 其 他 神经 元 或 外 界 对 该 神经 元 的 输入 ; wil 等 数据 为 这 个 神经 元 的 权重 ，ui 
Wij xj (0 是 对 输入 的 求 和 ， 为 诱导 局 部 域 ，yi =f(ui C) 为 输出 函数 ， 也 称 激励 函数 ， 是 对 
诱导 局 部 域 的 再 加 工 ， 也 是 最 终 的 输出 。 
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图 8-2” 人工 神经 元 


2. 神 经 网 络 发 展 历史 


20 世 纪 40 年 代 ， 心 理学 家 Mcculloch 和 数学 家 pitts 联 合 提出 了 兴奋 3 抽 制 型 神经 元 模 

型 ， 另 外 ，Hebb 提 出 了 神经 元 连接 强度 的 修改 规则 ; 到 20 世 纪 五 六 十 年 代 ， 该 领域 具有 
代表 性 的 工作 是 Rosenblatt 的 感知 机 和 Widrow 的 自 适 应 性 元 件 Adaline; 1969 年 ， “Minsky fl 
Papert 合 作 ee 《感知 器 》， 书 中 暗示 感知 器 具有 严重 局 限 ， 得 出 了 
消极 悲观 的 论点 ， 使 感知 器 与 连接 主义 章 到 冷落 ， 而 感知 器 是 神经 网 络 的 一 种 重要 形式 。 
在 20 世 纪 70 年 代 ， 人 工 神 经 网 络 的 研究 处 于 低潮 ， 201K 20704 EA 传统 的 汉 : 诺 依 曼 

(Von Neumann) 数字 计算 机 在 模拟 视听 觉 的 人 工 智 能 方面 遇 到 了 物理 上 不 可 逾越 的 极 
限 。 但 与 此 同时 ，Rumelhart、 Meclaland 和 Hopfel 等 人 各 神经 网 络 领域 取得 了 突破 性 进 
展 ， 神 经 网 络 的 热潮 再 次 掀起 。 
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8.1.1 Rosenblatt 感 知 器 
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Rosenblatt 感 知 器 是 由 美国 计生 算 机 科学 森 布 拉 特 (F. Rosenblatt) a an 
的 。EF.Rosenblatt 经 过 证 明 得 出 结论 ， 如 HOEK 线 
它们 分 开 ) ， 则 算法 一 定 收敛 。Rosenblatt 感 知 器 悦 别 适用 于 测 单 的 模式 分 类 问 是 
用 于 其 于 模式 分 类 的 学 习 控 制 。 

Rosenblatt 感 知 器 建立 在 一 个 线性 神经 元 之 上 ， 神 经 元 模型 的 求 和 节点 计算 作用 于 突 
触 输入 的 线性 组 合 ， 同 时 结合 外 部 作用 的 偏 置 ， 对 若干 个 突 触 的 输入 项 求 和 后 进行 调节 。 
1. 基 本 计算 过 程 

Rosenblatt 感 知 器 的 基本 计算 步骤 如 下 : 

1) 将 数据 作为 输入 送 入 神经 元 。 

人 

果 ， 计 算 公 式 如 下 

















m 





v=) wy +b 
E 诱导 局 部 域 被 送 入 硬 限 幅 器 ， 形 成 最 终 的 输出 硬 限 幅 器 
硬 限 幅 器 输入 为 正 时 ， 神 经 元 输出 +1， 反 之 输出 -1。 计 算 公式 为 : 
| wl 
NF 
-| vg) 





硬 限 幅 器 函数 图 像 如 图 8-3 所 示 。 
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图 8-3” 硬 限 幅 器 函数 图 像 
从 图 8-3 可 以 看 出 ， 在 最 终 的 计算 结果 中 ， 把 外 部 的 输入 xl1 ，x2 ，...，xm 输出 为 两 


类 ， 分 类 规则 是 : 如 果 输 出 函数 是 +1， 则 为 类 1， 如 果 输 出 为 -1， 则 为 类 2。 感 知 器 被 超 平 
面 分 为 两 类 ， 这 个 超 平面 为 : 





Do () 


2. 权 值 修正 


在 上 述 计算 过 程 中 ， 第 二 步 涉及 一 个 重要 的 参数 ， 即 权 值 。 如 何 确定 权 值 才 能 保证 
输出 能 被 正确 地 分 类 到 +1 和 -1 呢 ? 


首先 ， 会 产生 一 个 初始 权 值 ， 由 初始 权 值 计算 得 到 的 输出 结果 肯定 会 有 误差 。 接 
着 ， 要 想 办 法 让 误差 减少 ， 这 个 过 程 就 是 权 值 w 修 正 的 过 程 。 


新 的 问题 产生 了 ， 哪 些 数据 用 来 输入 呢 ? E ee 输入 数据 
是 确定 的 ， 但 给 出 结果 是 未 知 的 ， 这 些 输 出 结果 正 是 用 神经 网 络 预测 的 结果 。 解 
决 这 个 问题 的 关键 在 于 样本。 样本 是 研究 中 实际 观测 ski 部 分 ， 研 究 对 象 的 全 部 称 
为 总 体 ， 祥 本 公顷 能 多 正确 反映 总 体 情况 。 所 以 ， 用 样本 将 神经 网 络 训练 好 ， 在 确 
和 ine Ag 经 网 络 对 未 知 输入 所 属 的 输 AEE BM. 权 值 修正 方法 分 为 单 

BIE 量 修 法 。 


单 样本 修正 算法 的 步骤 为 : 神经 网 络 每 次 读 入 一 个 样本 ， 进 行 修 正 ， 样 本 读 取 完 


， 修 正 过 程 结束 。 算 济 过 程 首 述 如 下 : 


1) 设置 如 下 参数 : 
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w(0)=0 
x(n, a(n, x(n) 
w(n)=(b, mi, Wil) 


其 中 ，b 为 偏 置 ，x 为 输入 向 量 ，w 为 权 值 。 

2) 感知 器 激活 。 

对 于 每 个 时 间 步 "， 通 过 输入 向 量 x(n) 和 期 望 输出 d(n) 激 活 感知 器 。 
3) 计算 感知 器 的 输出 。 


yn)=sen(w (x(n) 
+], y>0 
sgn= 
-| v<0 
其 中 ，n 为 时 间 步 ，x(n) 为 输入 向 量 ，w(n) 为 权 值 向 量 ，sgn 为 硬 限 幅 函 数 ，v 为 硬 限 


幅 函 数 的 输入 值 。 
4) 更 新 感知 器 的 权 值 向 量 。 


wntl)=w(n)tn(d(n)-y(n))x(n) 
(xl 

pl th 

x( 站 属于 第 2 类 


其 中 ，n 为 学 习 速 率 〈 调 整 更 新 的 步伐 ) 。 
下 面 用 神经 网 络 学 习 逻 辑 或 的 运算 ， 用 Python 实现 上 述 算法 。 代 码 如 下 : 








#! pepe Nasal Ros 
# -*- codi - 
#code: ha ae com 
#8-1. 

import numpy as np 

b=0 

To 


= np.array([[0, ` T [0,1,0], [0,0,0], [0,0,1]]) 
d =np.array([1,1,0,1]) 


WwWvai bht . com DRXATHHE 

















w=np.array([b,0,0]) 


def sgn(v): 
if v>0: 
return 1 
else: 
return 0 


def comy(myw, myx): 
return sgn(np.dot(myw.T, myx) ) 
def neww(oldw, myd,myx,a): 
return oldw+a*(myd-comy(oldw, myx) ) *myx 


for xn in x: 
w=neww(w, d[i],xn,a) 
i+=1 
for xn in x: 
print "%d or %d => %d "%(xn[1],xn[2],comy(w,xn)) 











U FIET R h RIEN 


Æ 
fo} 











or 1 => 1 
or 0 => 1 
or 0 => 0 
or 1 => 1 


SGORR 








现在 来 测试 一 个 更 复杂 的 例子 。 针 对 下 面 两 类 函数 训练 神经 网 络 ， 将 一 组 (x，y) 
值 划分 为 以 下 两 类 函数 之 一 : 


:2x+1=y 为 第 1 类 。 
:7x+1=y 为 第 2 类 。 
代码 如 下 : 





#!/usr/bin/env python 
# -*- coding: utf-8 -*- 


#8-2.py 
import numpy as np 
b=1 
a=0.3 
x=np.array([[1,1,3], [1,2,5], [1,1,8], [1,2,15], [1,3,7], [1,4,29]]) 
d=np.array([1,1,-1,-1,1,-1]) 
w=np.array([b,0,0]) 
def sgn(v): 
if v>=0: 
return 1 
else: 
return -1 


def comy(myw, myx): 
return sgn(np.dot(myw.T, myx) ) 
def neww(oldw, myd,myx,a): 
print comy(oldw, myx) 
return oldw+a*(myd-comy(oldw, myx) ) *myx 


i=0 
for xn in x: 
print xn 
w=neww(w, d[i],xn,a) 
it=1 
print w 


for xn in x: 

print "%d %d => %d "%(xn[1],xn[2], comy(w, xn) ) 
test=np.array([b,9,19]) 
print "%d %d => %d "%(test[1],test[2],comy(w, test) ) 
test=np.array([b,9,64]) 
print "%d %d => %d "%(test[1],test[2],comy(w, test) ) 





在 上 面 代码 中 ， 使 用 了 [1，3] 、[2, 5] 、 [1, 8] 、[2，15] 、 [3，7] 、 
[4， 29] 这 儿 组 沼气 寻访 神经 网 络 进 行 训 纤 。 运 行 该 程序 ， 对 从 示 在 样本 中 出 现 过 的 数 
据 [9，19] 、 L9, 64] 进行 分 类 。 通 过 前 面 的 函数 定义 可 以 知道 ， [9，19] 属于 第 1 


= 
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类 ， [9，64] 属于 第 2 类 。 如 下 所 示 : 





9 19 => 1 
9 64 => -1 





接着 输出 训练 之 后 的 神经 网 络 权 值 参数 ， 代 码 如 下 : 





>>> W 
array([ 1. , 1.2, -0.6]) 





根据 上 述 参 数 ， 可 以 确定 神经 网 络 的 分 类 线 方程 为 : 
1.2x-0.6y+1=0=>1.2x+1=0.6y=>y*2x+1.68 


那么 对 于 不 完全 符合 上 述 两 个 函数 定义 通过 训练 好 的 神经 网 络 也 能 近似 地 
划分 到 上 述 函 数 中 。 Bo ee 加 入 两 个 不 太 规 则 的 测试 数据 点 [9， 
16] 、 [9, 60], 并 把 样本 [b b, 2, 5] N [b, 2, 3], 同时 加 入 到 命 
令 ， 闻 时 加 入 绘图 命令 绘制 数据 点 ， 然后 使 用 上 面 计算 的 分 类 线 方程 给 yee: (这 样 

能 直观 地 观察 结果 ) ， 如 图 8-4 所 示 。 





Sie 





图 8-4 ZR ZR aS CBRE a 
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在 如 图 8-4 所 示 的 样本 数据 点 中 ， 大 的 圆 点 属 
输出 为 1;， 在 测试 数据 点 中 ， 叉 号 属于 第 2 类 输出 ] 
的 虚线 就 是 分 类 线 ， HR DRE A AN 分 成 为 两 类 ， 点 输出 为 - 
n 点 输出 为 1， 训 练 好 的 神经 网 络 通过 这 条 分 类 线 决定 如 何 对 输入 所 属 的 分 类 进行 巴 
Il 








修改 后 的 Python 代码 如 下 : 
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#!/usr/bin/env python 
# -*- coding: utf-8 -*- 
#8-3.py 

import numpy as np 
import pylab as pl 

b=1 


a=0.3 
x=np.array([[1,1, 
d=np.array([1,1,-1,-1,1, -1]) 
w=np.array([b,0, ar 
def sgn(v): 
if v>=0: 
return 1 
else: 
return -1 


def comy(myw, myx): 


return sgn(np.dot(myw.T, myx) ) 


def neww(oldw, myd,myx,a): 


return oldw+a* (myd-comy(oldw, myx) ) *myx 


i=0 

for xn in x: 
w=neww(w, d[i], xn, a) 
i+=1 

myx=x[:,1] 

myy=x[:,2] 

pl.subplot(111) 

x_max=np . max (myx )+15 

x_min=np.min(myx)-5 

y_max=np . max (myy )+50 

y_min=np.min(myy)-5 

pl.xlabel(u"x") 

pl.xlim(x_min, x_max) 

pl.ylabel(u"y") 

pl.ylim(y_min, y_max) 

for i in xrange(0,len(d)): 

if d[i]>0: 


pl.plot(myx[i], myy[i], 'r*') 


else: 


pl.plot(myx[i], myy[i], 'ro') 


# 绘 制 测试 点 


test=np.array([b,9,19]) 

if comy(w, test)>0: 
pl.plot(test[1],test[2], 

else: 
pl.plot(test[1],test[2], 

test=np.array([b,9,64]) 

if comy(w, test)>0: 
pl.plot(test[1],test[2], 

else: 
pl.plot(test[1],test[2], 

test=np.array([b,9,16]) 

if comy(w, test)>0: 
pl.plot(test[1],test[2], 

else: 
pl.plot(test[1],test[2], 

test=np.array([b,9,60]) 

if comy(w, test)>0: 
pl.plot(test[1],test[2], 

else: 
pl.plot(test[1],test[2], 

# 绘 制 分 类 线 


testx=np.array(range(0, 20) ) 
testy=testx*2+1.68 
pl.plot(testx, testy, 'g--') 
pl.show() 








31, [1,2,3],[1,1,8], [1, 2,15], [1,3,7], [1,4,29]]) 





上 面 给 出 的 是 单 样本 感知 器 算法 ， 算 法 仅 读 取 一 次 样本 ， 每 读 取 一 个 样本 ， 就 是 一 


VOR. EUG 


只 考虑 了 用 一 





式 一 起 考虑 ， 而 批量 











修正 算法 








个 训练 模式 修正 权 天 量 。 实 际 上 ， 可 以 将 几 个 训练 模 








则 考虑 了 使 用 代价 函数 来 进行 分 类 误差 率 的 控制 。 批 量 修正 
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算法 要 对 样本 进行 多 次 读 取 ， 直 到 神经 


网 络 的 误差 率 降 到 合适 的 程 止 样 本 的 训练 ， 
这 是 它 与 单 样本 修正 算法 本 质 的 区 别 。 算 法 中 的 误差 率 使 用 最 直观 的 被 错 分 类 的 样本 数量 


准则 。 


批量 修正 算法 的 核心 在 于 其 权 值 更 新 策略 。 批 量 修 正 算法 采用 的 是 梯度 下 降 原理 ， 
其 计算 公式 为 : 





w(k+])=w(h)-n(h) V Jw) 


mea "Way 


Ww b))= ) 9) 


yeh 
其 中 ， 
Yk = 被 错 分 类 的 样本 输出 值 集合 
最 终 得 出 权 值 更 新 策略 为 : 
wk+1)=w(k)+(k) d*y (8.1) 
yel; 


在 上 式 中 ，d 为 样本 实际 输出 值 ，y 为 被 错 分 类 的 样本 的 输出 值 。 
具体 算法 过 程 如 下 : 

1) 初始 化 权 值 、 学 习 率 ， 以 及 期 望 误差 率 。 

2) 读 取 所 有 样本 数据 。 

3) 依次 对 样本 进行 训练 ， 更 新 权 值 ， 其 更 新 策略 如 式 〈8-1) rae 


n(k) > d*y 


) 检查 yer, 是 否 小 于 指定 误差 率 ， 或 者 训练 次 数 是 否 已 到 ， 如 
PE ARAR MER HIMARA EIRA. 


继续 使 用 单 样本 修正 法 的 样本 ， 将 一 组 〈x，y) 的 输入 划分 为 以 下 两 类 函数 之 一 : 
.2x+1=y 为 第 1 类 。 
:7x+1=y 为 第 2 类 。 


下 面 用 Python 实现 这 个 神经 网 络 ， 其 中 加 入 了 一 个 不 规则 的 样本 数据 L1, 2, 3], 
最 后 用 [9，19] 和 [3, 22] 对 训练 成 功 后 的 网 Aer ek. 
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#!/usr/bin/env python 

# -*- coding: utf-8 -*- 

#code:myhaspl@qq.com 

#8-4.py 

import numpy as np 

a=0.5 

x = np.array([[1,1,3], [1,2,3], [1,1,8],[1,2,15]]) 
d =np.array([1,1, -1, -1] 

w=np.array([b,0,0]) 


wucha=0 
ddcount=50 
def sgn(v): 
if v>0: 
return 1 
else: 
return -1 


def comy(myw, myx): 

return sgn(np.dot(myw.T, myx) ) 
def tiduxz(myw, myx, mya): 

i=0 

sum_x=np.array([0,0,0]) 

for xn in myx: 

if comy(myw, xn)!=d[i]: 
sum_x+=d[i]*xn 
i+=1 

return mya*sum_x 
i=0 
while True: 

tdxz=tiduxz(w, x,a) 

w=w+tdxz 

i=i+1 

if abs(tdxz.sum())<=wucha or i>=ddcount:break 
test=np.array([1,9,19]) 
print "%d %d => %d "%(test[1],test[2],comy(w,test)) 
test=np.array([1,3,22]) 
print "%d %d => %d "%(test[1],test[2],comy(w,test)) 











运行 程序 后 可 发 现 ， 训 练 效果 很 好 ， 测 试 数 据 被 正确 分 类 。 


919 => 1 
3 22 => -1 








3.LMS 算 法 


LMS 算 法 全 称 为 least mean square 算 法 ， 中 文 是 最 小 均 方 算法 。 在 ANN 领 域内 ， 均 方 
误差 是 指 样本 预测 输出 值 与 实际 输出 值 之 差 平方 的 期 望 值 ， 记 为 MSE。 设 observed 为 样本 
真 值 ，predicted 为 样本 预测 值 ， 计 算 公 式 如 下 : 


MSE = LS observei ~ predicted, ) 
Ni 


LMS 算 法 的 策略 是 使 均 方 误 差 最 小 ， 该 算法 运行 在 一 个 线性 神经 元 上 ， 使 用 的 是 批 
量 修正 算法 ， 其 误差 信号 为 : 


八 


en)d(n)-¥ n) 


然后 在 误差 信号 的 基础 上 计算 梯度 向 量 ， 公 式 如 下 : 
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KO 
a(n) 
最 后 ， 生 成 权 值 调整 方案 。 公 式 如 下 : 
OONO 
在 上 式 中 ，n 表 示 学 习 率 ， 该 值 越 小 ，LMS 算 法 执行 得 越 精 确 ， 但 同时 算法 收 剑 速度 


J 
Zo 


下 面 使 用 LMS 算 法 实现 逻辑 或 运算 ， 将 学 习 率 设 为 0.1。 代 码 如 下 : 


=-J(in)e(n) 





























#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
#8-5.py 

import numpy as np 
b=1 

a=0.1 

x = np.array([[1,1,1], [1,1,0], [1,0,1], [1,0,0]]) 
d =np.array([1,1,1,0]) 
w=np.array([b,0,0]) 
expect_e=0.005 
maxtrycount=20 


def sgn(v): 
if v>0: 
return 1 
else: 
return 0 


def get_v(myw, myx): 
return sgn(np.dot(myw.T, myx) ) 
def neww(oldw, myd,myx,a): 
mye=get_e(oldw, myx, myd) 
return (oldwta*mye*myx, mye) 
def get_e(myw, myx, myd) : 
return myd-get_v(myw, myx) 
mycount=0 
while True: 
mye=0 
i=0 
for xn in x: 
w, e=neww(w, d[i], xn, a) 
i+=1 
mye+=pow(e,2) 
mye/=float(i) 
mycount+=1 
print u" 第 


%d 次 调整 后 的 权 值 : 


"%mycount 
print w 
print u" 误 差 : 


%f"%mye 
if mye<expect_e or mycount>maxtrycount:break 
for xn in x: 
print "%d or %d => %d "%(xn[1],xn[2],get_v(w,xn)) 








下 面 是 程序 的 运行 结果 ， 可 以 看 出 ， 通 过 13 次 迭代 ， 训 练 结束 ， 对 测试 值 的 输出 正 


laa 


Ho 











Ed 
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12 次 调整 后 的 权 值 : 


[-0.1 0.1 9.1] 误差 : 


0.500000% 


13 次 调整 后 的 权 值 : 


[-0.1 0.1 9.1] 误 差 : 


.000000 

or 1 => 1 
0 => 1 
or 1 => 1 
or 0 => 0 


VOORRO® 
口 








男 外 ， 可 应 用 LMS 算 法 实现 比 逻辑 与 更 复杂 的 算法 ， 比 如 : 在 输入 矩阵 中 ， 如 果 x 固 
的 整除 结果 为 6， 则 表示 为 一 类 ， 输 出 为 1， 若 结果 为 3 则 是 另 一 类 ， 输 出 为 -1。 代 码 如 











#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
#8-6.py 

import numpy as np 

b=1 

a=0.1 

x = np.array([[1,1,6], [1,2,12], [1,3,9], [1,8,24]]) 
d =np.array([1,1,-1, -1]) 
w=np.array([b,0,0]) 
expect_e=0.005 
maxtrycount=20 


def sgn(v): 
if v>0: 
return 1 
else: 
return -1 


def get_v(myw, myx): 
return sgn(np.dot(myw.T, myx) ) 
def neww(oldw, myd,myx,a): 
mye=get_e(oldw, myx, myd) 
return (oldwta*mye*myx, mye) 
def get_e(myw, myx, myd): 
return myd-get_v(myw, myx) 
mycount=0 
while True: 
mye=0 
i=0 
for xn in x: 
w, e=neww(w, d[i], xn, a) 
i+=1 
mye+=pow(e,2) 
mye/=float(i) 
mycount+=1 
print u" 第 


%d 次 调整 后 的 权 值 : 


"%mycount 
print w 
print u" 误 差 : 
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%f"%mye 

if abs(mye)<expect_e or mycount>maxtrycount :break 
for xn in x: 

print "%d %d => %d "%(xn[1],xn[2],get_v(w, xn) ) 
test=np.array([1,9,27]) 
print "%d %d => %d "%(test[1],test[2],get_v(w, test) ) 
test=np.array([1,11,66]) 
print "%d %d => %d "%(test[1],test[2],get_v(w, test) ) 








E 误差 率 为 0， 用 样本 数据 和 测试 数据 进行 验证 ， 准 确 无 误 。 下 面 是 
‘TRA: 





8 次 调整 后 的 权 值 : 


[ 1.4 -2.8 0.6] 误 差 ; 


3.000000 第 


9 次 调整 后 的 权 值 : 


[ 1.4 -2.8 0.6] 误差; 


0.000000 

1 6 => 1 

2 12 => 1 

3 9 => -1 

8 24 => -1 
9 27 => -1 
11 66 => 1 





4.Rosenblatt 感 知 器 的 局 限 性 
不 是 所 有 的 数据 都 能 被 Rosenblatt 感 知 器 正确 分 类 。 比 如 说 下 面 的 样本 数据 : 





x = np.array([[1,1,6], [1,3,12], [1,3,9], [1,3,21], [1,2,16], 
[1,3,15]]) d =np.array([1,1,-1,-1,1,-1]) 





DY FILMS SEE XT CHE VIIZRQ2000K, AREE, PERA EAE 


确 分 类 。 如 下 所 示 : 





199 次 调整 后 的 权 值 : 
[ 18. -17.2 ”0.8] 误 差 
2.666667 第 


200 次 调整 后 的 权 值 : 
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[ 18. -17.4 -0.8] 误 差 : 


2.666667 第 


201 次 调整 后 的 权 值 : 


[ 18.4 -16.8 ”1.8] 误 差 : 


2.6666671 6=>13 12 => -1 3 9 => -1 3 21 => 12 16 => 1 3 15 => -1 9 27 
11 66 => -1 














为 什么 会 出 现 这 种 情况 ? 试 着 修改 8-6.py 的 样本 数据 ， 同 时 绘制 包括 这 些 点 的 散 点 





#!/usr/bin/env python 

#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 

#8-7.py 

import numpy as np 

import pylab as pl 

b=1 

a=0.1 

x = np.array([[1,1,6],[1,3,12], [1,3,9], [1,3,21], [1,2,16], [1,3,15]]) 
d =np.array([1,1,-1,-1,1,-1]) 
w=np.array([b,0,0]) 
expect_e=0.005 
maxtrycount=200 


def sgn(v): 
if v>0: 
return 1 
else: 
return -1 


def get_v(myw, myx): 
return sgn(np.dot(myw.T, myx) ) 
def neww(oldw, myd,myx,a): 
mye=get_e(oldw, myx, myd) 
return (oldwta*mye*myx, mye) 
def get_e(myw, myx, myd): 
return myd-get_v(myw, myx) 
mycount=0 
while True: 
mye=0 
i=0 
for xn in x: 
w, e=neww(w, d[i], xn, a) 
i+=1 
mye+=pow(e,2) 
mye/=float(i) 
mycount+=1 
print u" 第 


%d 次 调整 后 的 权 值 : 


"%mycount 
print w 
print u"ik#: 


%f"%mye 

if abs(mye)<expect_e or mycount>maxtrycount :break 
for xn in x: 

print "%d %d => %d "%(xn[1],xn[2],get_v(w, xn) ) 
test=np.array([1,9,27]) 


print "%d %d => %d "%(test[1],test[2],get_v(w, test) ) 
test=np.array([1,11, 66] ) 

print "%d %d => %d "%(test[1],test[2],get_v(w, test) ) 
myx=x[:,1] 

myy=x[:,2] 


pl.subplot(111) 
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X_max=np.max(myx)+10 
X_min=np.min(myx)-5 
y_max=np.max(myy)+50 
y_min=np.min(myy) -5 
pl.xlabel(u"x") 
pl.xlim(x_min, x_max) 
pl.ylabel(u"y") 
pl.ylim(y_min, y_max) 
# 绘 制 样本 点 


for i in xrange(0,len(d)): 
if d[i]>0: 
pl. plot(myx[i], myy[i], 'r*') 
else 
pl.plot(myx[i], myy[i], 'ro') 
# 绘 制 测试 点 


test=np.array([1,9,27]) 
pl.plot(test[1],test[2], 'bx') 
test=np.array([1,11, 66] ) 
pl.plot(test[1],test[2], 'bx') 
pl.show() 








在 如 图 8-5 所 示 的 散 点 图 中 ， 实心 圆圈 和 星 号 是 两 类 不 同 的 样本 点 ， 叉 号 为 测试 点 。 
这 张 图 中 ， 无 法 画 出 一 条 线 来 将 两 类 点 分 开 ， 只 有 曲线 才能 将 它们 分 开 ， 但 线性 方程 根 
不 可 能 产生 的 曲线 ， 因 此 Rosenblatt 感 知 器 不 适用 于 非 线性 分 类 。 





图 8-5” 散 点 网 


5.LMS 的 学 习 率 退火 算法 


模拟 退火 算法 来 源 于 国体 退火 原理 ， 退火 就 是 将 材料 加 热 后 再 o ee H 
的 是 增 大 品 粒 的 体积 ， 并 且 减 少 品格 中 的 缺陷 。 材 料 中 的 原子 原来 会 停留 在 使 内 能 有 局 党 
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最 小 值 的 位 置 ， 加 热 使 能 量变 大 ， ee a 退火 
HG 了 到 


冷却 时 速度 较 慢 ， 徐 徐 冷 却 时 粒子 渐 趋 有 序 ， 原 子 有 可 能 找到 内 


原先 更 低 的 位 置 ， 








后 在 常温 时 达到 基态 ， 内 能 减 为 最 小 。 
PaM ene eS ee ae 其 中 E 为 温度 T 时 





的 内 能 ，AE 为 寺 



































改变 量 ，k 为 Boltzmann 常 数 。 用 固体 退火 模拟 组 合 优 化 问题 i 


拟 为 目标 函数 值 ?” 深度 演化 成 控制 参数 [， 如 得 到 解 组 合 优化 问题 的 模拟 退火 算法 : 
OES a LR Satan ae 计算 目标 函数 差 接受 或 舍 








弃 ” 的 迭代 ， 并 逐步 衰减 t 值 ， 算 法 终止 





时 的 当前 解 即 为 所 得 近似 最 优 解 ， 这 是 基于 蒙特 卡 











PRR aI = 种 启发 式 随机 搜索 过 程 。 退 火 过 程 由 冷却 进度 表 控 制 ， 包 括 控制 参数 的 
初 值 {! 及 其 衰减 因子 At、 每 个 {t 值 时 的 迭代 次 数 L 和 停止 条 件 S。 


针对 学 习 率 不 变化 、 收 敛 速度 较 慢 的 情况 ， 即 可 使 用 退火 算法 方案 ， 让 学 习 率 随时 





闻 而 变化 。 学 习 率 计算 公子 








Ho 


下 面 应 用 退火 算法 对 代码 8-6.py 做 一 些 改动 ， 代 码 如 下 : 





#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
#8-8.py 

import numpy as np 
import math 


x = np.array([[1,1,6],[1,2,12], [1,3,9],[1,8,24]]) 
]) 


d =np.array([1,1,-1,-1 
w=np.array([b,0,0]) 
expect_e=0.05 
maxtrycount=20 
mycount=0 
def sgn(v): 
if v>0: 
return 1 
else: 
return -1 
def get_v(myw, myx): 


return sgn(np.dot(myw.T, myx) ) 


def neww(oldw, myd,myx,a): 
mye=get_e(oldw, myx, myd) 
a=a0/(1+float(mycount)/r) 


return (oldwta*mye*myx, mye) 


def get_e(myw, myx, myd): 

return myd-get_v(myw, myx) 
while True: 

mye=0 

i=0 

for xn in x: 


w, e=neww(w, d[i], xn, 


it=1 
myet+=pow(e, 2) 
mye=math.sqrt(mye) 
mycount+=1 
print u" 第 


%d 次 调整 后 的 权 值 : 


"%mycount 
print w 


a) 
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print u" 误 差 : 


%f"%mye 

if abs(mye)<expect_e or mycount>maxtrycount :break 
for xn in x: 

print "%d a => %d "%(xn[1],xn[2], get_v(w, xn) ) 
test= =np. array([1,9, 27)) 
print "%d %d => > %d "%(test[1],test[2],get_v(w, test) ) 
test= =np. array([1,11, 66] 
print "%d %d => %d "%(test[1],test[2],get_v(w, test) ) 





从 程序 运行 结果 来 看 ， 仅 仅 7 次 就 完成 了 训练 ， 训 练 次 数 大 大 减少 。 





6 次 调整 后 的 权 值 : 


[ 1.28888889 -1.55238095 0.29642857] 误差 : 


3.464102 第 


7 次 调整 后 的 权 值 : 


[ 1.28888889 -1.55238095 0.29642857] 误差: 











1. 梯 度 下 降 概述 

上 一 节 中 曾 提 到 梯度 的 概念 ， 完 竟 什 么 是 梯度 和 梯度 下 降 呢 ? 

梯度 是 一 个 向 量 场 ， 标 量 场 中 某 一 点 上 的 梯度 指向 标量 场 增 长 最 快 的 方向 ， 梯 度 的 
长 度 是 这 个 最 大 的 变化 率 。 梯 度 下 降 ， 就 是 利用 负 梯 度 方 同 来 决定 每 次 迄 代 的 新 的 搜索 方 
向 ， 从 而 使 得 在 每 次 迭代 过 程 中 ， 都 能 让 待 优化 的 目标 函数 逐步 减 小 。 梯 度 下 降 法 使 用 的 


是 二 范 数 下 的 最 速 下 降 法 。 最 速 下 降 法 的 一 种 简单 形式 如 下 : 
x(k+1)=x(k)-a*g(k) 
其 中 ，a 称 为 学 习 速 率 ， 可 以 是 较 小 的 常数 。g(k) 是 x(k) 的 梯度 。 


机 器 学 习 算法 效果 究竟 如 何 ， 或 者 说 误差 为 多 少 ， 可 以 用 误差 函数 J(6) 来 度量 。 其 中 
的 参数 6 在 神经 网 络 中 可 以 理解 为 权 值 。 如 何 调整 权 值 6 以 使 得 J(6) 取 得 最 小 值 有 很 多 方 
法 ， 梯 度 下 降 法 是 按 下 面 的 步骤 进行 的 : 


1) 对 6 赋值 ， 这 个 值 可 以 是 随机 的 ， 也 可 以 让 6 是 一 个 全 零 的 向 量 。 
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2) 改变 6 的 值 ， 使 得 J(6) 按 梯度 下 降 的 方向 进行 减少 。 
为 了 更 清楚 地 表达 ， 先 来 看 一 er ts 
图 8-6 古 表示 参数 0 与 误 莽 函数 J(0) 关 系 的 图 ， KREMER. 0 a; 
OO Ske Lt ee 

红色 较 凸 起 的 部 分 是 ERAIK RANN, MOTNA, 
的 目标 是 : 让 J(9) 的 值 尽 量 低 ， 降 到 最 低 处 ， 也 就 是 最 目的 部 分 。90 . 0, 表示 9 向 量 的 两 
个 维度 。 

Cee 假设 随机 给 的 初 值 是 在 最 高 的 十 字 点 处 ;然后 
ee ee 如 图 8-7 所 未。 算法 

: 年 5 


最 后 一 个 点 》， 而 是 一 个 局 部 最 小 点 (图 8- 中 后 一 个 
4 情况 ， 而 图 8-6 中 的 曲线 路 径 则 是 完美 的 梯度 下 降 过 程 。 


图 8-7 中 所 示 的 这 种 情况 是 在 神经 网 络 训练 中 要 尽量 避免 出 现 的 ， 这 里 的 梯度 下 降 到 
神经 网 络 在 一 个 不 正确 的 位 置 收敛 了 ， 训 练 停止 ， 这 时 即使 继续 训练 
没 久 
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Gradient Descent Algorithm 
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图 8-6 误差 曲面 及 梯度 下 降 ( 附 彩 图 ) 
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图 8-7” 落 到 局 部 最 小 点 的 梯度 下 降 〈 附 彩 图 ) 
2. 梯 度 下 降 法 涉及 的 数学 知识 
D 导数 的 几何 意义 : 导数 的 几何 意义 在 于 ， 函 数 在 茶 一 点 的 导数 等 于 它 的 图 像 上 这 





一 点 处 之 切线 的 斜率 ， 如 图 8-8 所 示 。 
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图 8-8 “导数 


tana = lim tang = in atu) 
Wl A Ay 


2) 积分 的 几何 意义 :对 于 一 个 给 定 的 正 实 值 函 数 f(x)，f(x) 在 一 个 实数 区 间 La, b] 
上 的 定 积 分 为 : 


jf 


FEM LL LTR te Oxy Ah Fi, Roo fo), Mlewa, 2 以 
AARAA BRER, eR TULA SRT, ATLL ESRB QE 


3) 微分 的 几何 意义 : 一 元 函数 的 微分 与 自 变量 的 微分 之 商 等 于 该 函数 的 导数 ， 所 以 








Ay 是 曲线 在 P PEA TAA 
兽 量 ， 如 图 8-9 所 示 











oe f(x) 上 的 点 P 在 Seige areas 


EPRA AXTELL 
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图 8-9 微分 





4) ti PBL: 拥有 eS nee eee age 








该 函数 相对 于 其 中 某 个 自 变量 的 导数 。 函 数 f 关 于 变量 x 的 偏 导数 写 为 fx 或 OX 。 
f 是 一 个 多 元 函数 。 例 如 : 


f(x, y)=x? txyty? 
xl Ay Hi ERRES aA ICS 4 RG» HERP BR IY SN 4 DE Ah SSC 
man 条 切线 ， 并 求 出 它 的 斜率 。 

















多 自 变量 函数 f(x1 ，...，xn ) 在 点 (al ，...，an ) 处 ， 对 于 某 个 自 变量 x; 的 偏 导 
dant) fag) 
一 (= 加 一 re 
OX, h0 h 
5) 梯度 ， 欧 几 里 得 空间 Rn 中 的 函数 f(x ，...，xn ) 对 每 个 自 变量 x 具有 偏 导数 


Off Ox; 在 点 a 处 ， 这 些 偏 导数 定义 了 一 个 向 量 ; 
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这 个 向 量 称 为 {在 点 a 处 的 梯度 。 
3. 梯 度 下 降 的 原理 


如 果实 值 函 数 F(x) 在 点 a 处 可 微 且 有 定义 ， 那 么 该 函数 在 a 点 沿 着 梯度 相反 的 方向 下 降 
最 快 ， 人 出 发 ， 存 在 如 下 序列 x0 ，x1 ，x2 ，...， 使 








at a 


Mmm V E(t) > 0 
因此 可 得 到 
F(x0 )2F(x1 )>F(x2 )2... 
如 果 顺 利 的 话 ， 序 列 (Xn ) 将 收敛 到 期 望 的 极 值 。 
4. 梯 度 下 降 和 delta 法 则 


delta 法 则 克服 了 感应 器 法 则 的 不 足 ， 在 线性 不 可 分 的 训练 样本 上 ， 可 以 有 效 地 收 
Sl, 并 接近 目标 的 最 佳 近似 值 。delta 法 则 的 关键 思想 是 : 使 用 梯度 下 降 来 搜索 可 能 的 权 回 





量 假 设 空间 ， 以 找到 最 佳 拟 合 训 练 样 例 的 权 向 量 。 








delta 法 则 为 反 回 使 播 提 法 提供 了 基础 ， 而 反 回 传播 算法 ee 
络 ， 在 包含 多 种 不 同类 型 的 连续 参数 化 假设 的 空间 中 ， HIET 条 是 必须 遍历 这 样 的 空间 的 


所 有 算法 的 基础 。 
误差 曲面 是 一 个 抛物 面 ， 存 在 一 个 单一 全 局 最 小 值 ， 梯 度 下 降 搜 索 从 一 个 任意 的 初 
始 权 向 量 开始 ， 然后 沿 误差 曲面 最 陡峭 下 降 的 方向 ， 以 很 小 的 步伐 反复 修改 这 个 向 量 ， 直 
到 得 到 全 局 的 最 小 误差 点 。 
5. 基 于 梯度 下 降 的 线性 分 类 器 


下 面 总 结 一 下 前 面 介绍 的 线性 神经 网 络 代 码 ， 并 将 它们 整理 成 Python 模块 
人 然后 引入 这 个 模块 ， 实 现 对 一 组 输 入 的 线性 分 小 类 。 以 下 程序 有 详细 的 注释 说 























#!/usr/bin/env python 

#-*- coding: utf-8 

#code:myhaspl@qq.com 

#8-9.py 

import mplannliner as nplann 

traindatal=[[[9, 25], -1], [[5,8],-1,[[15, 34], -1], [[35, 62], -1], [[19, 40], -1], [[28,6 
5],1],[[20,59],1], [[9,41],1], [[12,60],1],[[2,37],1]] 

myann=nplann.Mplannliner () 

# 样 本 初始 化 


myann.samples_init(traindata1) 
# 学 习 率 初始 化 
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myann.a_init(0.1) 
# 搜 索 时 间 常 数 初始 化 


myann.r_init(50) 
# 最 大 训练 次 数 


myann.maxtry_init(500) 
# 期 望 最 小 误差 


myann.e_init(0.05) 
# 训 练 


myann.train() 
# 仿 真 ， 测 试 ， 对 未 知 样本 分 类 


myc=myann.simulate([35,68]) 
print "[35,68]" 
if myc==1: 

print u" 正 类 


else: 
print u" 负 类 


# 将 测试 点 在 最 终 效果 图 上 显示 出 来 ， 将 它 加 入 


drawponint 集 ， 测 试点 表现 为 














"* "并且 色彩 由 其 最 终 的 分 类 结果 而 决定 








myann.drawponint_add([35,68]) 
myc=myann.simulate([35,82]) 
print "[35,82]" 
if myc==1: 

print u" 正 类 


else: 
print u" 负 类 


myann.drawponint_add([35,82]) 
myann.draw2d() 
# 下 面 直接 使 用 默认 参数 进行 训练 


traindata2=[[[9,25,30],-1],[[5,8,12], -1], [[15, 31,49], -1], [[35, 62,108], 
sid: [[49,40,60], -11, (128, 65, 98],2], [[20, 59, 721,1], [19 41,387, 11, [[42, 68, 46], 1], [12,37, 
myann2=nplann.Mplannliner() 
myann2.samples_init(traindata2) 
myann2.train() 
myc=myann2.simulate([35,68,110]) 
print "[35,68,110]" 
if myc==1: 
print u" 正 类 
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" 
else: 
print u" 负 类 











是 程序 运行 生成 的 效果 图 ， 虚 线 是 分 类 线 ， 它 清晰 地 将 不 同类 的 点 分 
两 部 分 。 ener 可 以 看 到 ， 已 被 正确 分 类 。 Rosenblatt 3 32 x1 26 HE 


ANN-LINER[red:+green:-] 
[myhaspl@qq.com]http://blog.csdn.net/u0 10255642 





图 8-10 ”线性 分 类 效果 
mplannliner 模 块 的 代码 如 下 : 





#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
#author : hy 


#2013-07-25 
import numpy as np 
import math 
import matplotlib.pyplot as plt 
class Mplannliner: 
def __init__(self): 
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self .b=1 
self .a0=0.1 
self .a=0.0 
self .r=20.0 
self.expect_e=0.05 
self .traincount=100 
self.testpoint=[] 
def testpoint_init(self): 
self .testpoint=[] 
def e_init(self,mye): 
self .expect_e=mye 
def samples_init(self,mysamples): 
my_x =[] 
my_d =[] 
my_w =[self.b] 
myexamp=mysamples 
for mysmp in myexamp: 
tempsmp=[1]+mysmp[0] 
my_x.append(tempsmp ) 
my_d.append(mysmp[1] ) 
for i in range(len(my_x[0])-1): 
my_wW.append(@.0) 
np.array(my_x) 
self.d np.array(my_d) 
self.w = np.array(my_w) 
def a_init(self,mya): 
self .a0=mya 
def r_init(self,myr): 
self .r=myr 
def maxtry_init(self,maxc): 
self.traincount=maxc 
def sgn(self,v): 
if v>0: 


self .x 


return 1 
else: 
return -1 
def get_v(self,myw, myx): 
return self.sgn(np.dot(myw.T, myx) ) 
def neww(self, oldw,myd,myx,a,mycount): 
mye=self.get_e(oldw, myx, myd) 
self .a=self.a0/(1+mycount/float(self.r)) 
return (oldwta*mye*myx, mye) 
def get_e(self, myw, myx, myd) : 
return myd-self.get_v(myw, myx) 
def train(self): 
mycount=0 
while True: 
mye=0 
i=0 
for xn in self.x: 
self .w, e=self.neww(self.w,self.d[i],\ 
xn, self.a,mycount ) 
it=1 
myet+=pow(e, 2) 
mye=math.sqrt(mye) 
mycount+=1 
print u" 第 


%d 次 调整 中 ... 误 差 : 


%f"%(mycount, mye) 
if abs(mye)<self.expect_e or mycount>self.traincount: 
y p y 
if mycount>self.traincount: 
print "已 经 达到 最 大 训练 次 数 


:%d"%mycount 
break 
def simulate(self, testdata): 
if self.get_v(self.w,np.array([1]+testdata))>0: 
return 1 
else: 
return -1 
def drawponint_add(self, point): 
self.testpoint .append(point ) 
def draw2d(self): 














wawai bbt .cam DEE ATCHHE 























temp_x=[] 
temp_y=[] 
1=0 


for mysamp in self.x: 

temp_x.append(mysamp[1] ) 

temp_y.append(mysamp[2] ) 

if self.d[i] > 0: 
plt.plot(mysamp[1],mysamp[2], "or") 

else: 
plt.plot(mysamp[1],mysamp[2],"og") 

+=1 


mytestpointx=[] 
mytestpointy=[] 
for addpoint in self.testpoint: 
if self.simulate(addpoint)=="+": 
plt.plot(addpoint[0],addpoint[1], '*r') 
else: 
plt.plot(addpoint[0],addpoint[1], '*g') 
mytestpointx.append(addpoint [0] ) 
mytestpointy.append(addpoint[1]) 
X_max=max(max(temp_x),max(mytestpointx) )+5 
xX_min=min(min(temp_x),min(mytestpointx) ) 
y_max=max(max(temp_y),max(mytestpointy) )+5 
y_min=min(min(temp_y),min(mytestpointy) ) 
if x_min >0: 
x_min=0 
if y_min >0: 
y_min=0 
plt.xlabel(u"x1i") 
plt.xlim(x_min, x_max) 
plt.ylabel(u"x2") 
plt.ylim(y_min, y_max) 
plt.title("ANN-LINER[red:+ green:-]" ) 
lp_x1 = [x_min, x_max] 
lp_x2 = [] 
myb=self.w[0] 
mywi=self.w[1] 
myw2=self.w[2] 
myy=(-myb-myw1*1p_x1[0])/float (myw2) 
1p_x2.append(myy) 
myy=(-myb-myw1*1lp_x1[1])/float (myw2) 
1p_x2.append(myy) 
plt.plot(lp_x1, 1p_x2, 'b--') 
plt. show() 








8.1.3 反问 传播 与 多 层 感 知 器 


1. 反 向 传播 算法 
Se aa Al aia Re eg 











环节 《激励 传播 、 权 重 更 新 ) 


Ht 
E 




















FEJERE, HERA EE E EEIE, 它 可 用 来 学 习 多 层 网 络 
I RUE eer Pee ee ag eee ne be 
义 ) HAR. CES epee ble, RIMM Ae CEA bee (ELL fe te te 2 7} 
E, BORE FEEN E RENBAAN VA SEER WARD T AR 
题 ， 在 实践 中 有 出 色 的 效果 。 反 向 传播 算法 有 以 下 特点 : 





1) 网 络 中 的 每 个 神经 元 模型 包括 一 个 非 线性 激活 函数 ， 非 线性 是 光滑 的 〈 即 处 处 可 
微 ) 也 是 必要 的 ， 否 则 网 络 的 输入 输出 关系 会 被 归 弓 Lees 


2) 网 络 包 括 一 层 或 多 层 神经 元 的 隐 层 ， 它 不 负责 网 络 的 输入 输出 。 这 些 隐 层 神 经 元 
逐步 从 输入 疝 量 中 提取 有 用 特征 ， 使 网 络 学 习 复杂 的 任务 。 


3) 网 络 的 连接 强度 由 网 络 突 触 决定 。 
反问 传播 算法 的 主要 过 程 如 下 : 
D 激励 传播 过 程 。 在 神经 元 j 的 激活 函数 输入 处 应 用 诱导 局 部 域 bj (n)， 定 义 如 下 : 





lv 









































wawai bbt. comm [7a ACHEDE 





























这 个 过 程 完成 逐 层 从 输入 层 传播 至 输出 层 的 任务 。 
2) 权重 更 新 过 程 。 对 每 层 的 神经 元 的 权 值 进行 修正 ， 公 式 如 下 : 
Awji CD=noj (n)yi (n) 


其 中 ，Awji ”(n) 是 指 神经 元 i 连接 到 神经 元 j 的 突 触 ii 的 权 值 的 校正 值 ，n 是 学 习 率 ，6j 
CD) 是 局 部 梯度 。 


反 向 传播 算法 的 过 程 如 下 : 


从 建立 一 个 具有 期 望 数量 的 隐藏 单元 和 输出 单元 的 网 络 开始 ， 
权 值 为 较 小 的 随机 数 〔0~1 的 实数 ) ; 然后 ， 给 定 一 个 固定 的 网 络 结构 ; 算法 的 主 
循环 对 训练 样 例 进 行 反 复 过 代 ， 对 于 每 一 个 训练 样 例 ， 它 会 应 用 目前 的 网 络 到 这 个 样 例 
中 ， ;并 计算 出 对 这 个 样 例 网 络 答 出 的 误 若 ， 更 新 网 络 中 所 有 的 权 值 ， 然 后 对 这 样 的 梯度 下 
降 步 骤 进 行 迭 代 ， 直 到 网 络 的 性 能 达到 可 接受 的 精度 为 止 。 


但 该 算法 存在 局 限 性 ， 仍 然 无 法 摆脱 陷入 局 部 最 小 误差 的 地 步 。 因 此 ， 要 在 出 此 基础 
上 增加 冲 量 动量) 项 。 通 过 修改 权 值 更 新 法 则 ， 使 第 n 次 达 代 时 权 值 的 更 新 受到 第 n-1 次 
迭代 的 影响 ， RUA HARI ET ITT SE 有 部 分 参数 来 自 于 上 次 迭代 的 更 新 值 ， 这 样 ， 
冲 量 有 时 会 滚 过 误差 曲面 的 肩 部 极 小 值 ， 并 在 梯度 不 变 的 区 域内 逐渐 增 大 搜索 步 长 ， 加 快 
WR, WATT BD MAR 


2. 多 层 感 知 器 网 络 


多 层 感知 器 利用 非 线性 神经 元 作为 中 间 隐 藏 层 神经 元 ， 输 出 站 以 直接 使 用 非 线性 
人 也 可 以 使 用 线性 神经 元 。 如 图 8-11 所 示 是 一 个 拥有 两 个 隐 WEEE 或 知 器 网 













































































在 图 8-11 中 ， 网 络 由 输入 层 、 隐藏 层 及 输出 层 构成 ， J 繁多 的 非 线 性 
曲面 ， 多 层 网 络 能 在 隐藏 层 自 动 发 现 并 被 有 效 表 示 。 它 允许 学 习 器 创造 出 设计 者 没有 明 帮 
引入 的 特征 ， 网 络 中 使 用 的 单元 层 越 多 ， DLO SIO A 


多 层 感知 器 的 激活 函数 及 局 域 梯度 如 下 。 


ana 
Z% 











HH 
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RAE bala 第 二 隐 层 输出 层 
图 8-11 多 层 感知 器 网 络 
1) logistic 函 数 。logistic 函 数 的 定义 为 : 
| 


P(t)=—— 
[+e 


它 又 称 sigmoid 曲 线 〈S 形 曲线 ) ， 如 图 8-12 所 示 是 它 的 图 像 ， 很 像 字母 S。 
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logisticr i 
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—30 —20 -10 () 10 20 30 


图 8-12 sigmoid 曲 线 《〈 附 彩 图 ) 
在 多 层 感知 器 中 ， logistic 函 数 可 作为 神经 元 j 的 激活 函数 gp (vj (n)), 它 定义 为 : 
| 
0;(v,(n))=————a >l 
l+exp(-av,(n)) 
其 中 ，uj (n) 是 神经 元 j 的 诱导 局 部 域 。 
logistic 函 数 的 局 部 梯度 需要 分 两 种 情况 定义 ; 
一 种 情况 ， 神 经 j 没 有 位 于 隐藏 层 ， 则 局 部 梯度 定义 为 : 
6j (n)=a(dj (n)-oj (n))oj (n)(1-9j (n)) 
第 二 种 情况 ， 神 经 j 位 于 隐藏 层 ， 则 局 部 梯度 定义 为 : 


O(n) }=ay (n)( I-y.(n)) in (n)w,(n) 


2) tanh 函 数 。tanh 〈 双 曲 正切 ) 函数 的 数学 定义 为 : 
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=x 


sinh y=—— 


cosh x = le 
2 
_ sinh(x) 


cosh(x) 


tanh x 





双 曲 正切 函数 的 图 像 如 图 8-13 所 示 。 





logistic ph 4 











-30 -20 -10 () 








图 8-13 XX HH IEW K% 
在 多 层 感知 器 中 ， 双 曲 正切 函数 可 作为 神经 元 j 的 激活 函数 pj (vj (n))， 它 定义 为 : 


Pj (Yj (n))=atanh(bu; (n)) 


其 中 ，a 和 b 为 正 的 常数 值 ，bj (n) 是 神经 元 j 的 诱导 局 部 域 。 
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双 曲 正切 函数 的 局 部 梯度 需要 分 两 种 情况 定义 : 
第 一 种 情况 ， 神 经 元 j 没 有 位 于 隐藏 层 ， 则 局 部 梯度 定义 为 : 
b 
0 (n) a U, (n) 7 0, (Wa -0 (Wala t 0, (n)) 


a 
第 二 种 情况 ， 神 经 j 位 于 隐藏 屋 ， 则 局 部 梯度 定义 为 : 


b 
OOE ya aty, (a MDA (nw, (n) 
前 面 说 过 ， 多 层 感知 器 利用 非 线 性 神 ee TGs 非 线性 神经 元 使 


用 双 曲 正切 函数 或 logistic 销 数 作为 激 池 函数 ， 使 用 非 线 性 神 笃 元 或 使 用 线性 神经 元 组 成 输 
nE Z RRRA HY UI BR is BAR EAS, HREN EE A OP SA 
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aS 


ee see a ee ee: 
的 输出 值 ; 反 回 计算 根据 输出 结果 与 目标 输出 的 误差 来 由 UA Rak anaes eee 
isc ， 冲 量 〔 动 量 ) 参数 既 可 以 调整 学 习 速 度 ，i 
ELEN TE 


个 算法 过 程 也 是 反 向 传播 算法 的 过 程 ， 通 过 使 用 梯度 下 降 方 法 搜索 可 能 假设 的 空 
间 ， AR EA I. 


如 果 不 调 用 神经 网 络 的 中 间 库 ， 自 己 编写 所 有 的 代码 ， 需 要 把 握 好 以 下 要 点 : 


1) 学 习 率 和 动量 参数 。 输 入 层 、 输 出 层 、 中 间 层 的 学 习 率 和 动量 参数 不 同 。 输 出 层 
的 学 习 率 较 低 ， 动 量 参数 较 高 ， 输 入 层 的 学 习 率 较 低 ， 动 量 参数 较 低 。 


O 2) 权 值 。 权 值 算 阵 非常 重要 ， 一 个 好 的 权 值 矩阵 能 使 网 络 快 速 收敛 ， 让 网 络 更 稳 
Eo EA A 可 以 选择 以 下 几 种 方法 : 
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gale. 
aw 步 搜索 法 Se 
Nguyen-Widrow 初 始 化 算法 ，MATLAB 使 用 Nguyen-Widrow 权 值 矩 初始 化 算法 。 
ee ee te 合 预测 结果 的 要 求 ， 需 要 另外 的 函数 
对 输出 层 进行 处 理 。 在 线性 神经 网 络 中 ， 通 常 使 用 硬 限 幅 函 函数 ， He 2 SRT EAA 
各 台风 各 中 故 可 以 生 用 生机 也 可 以 使 用 其 他 函数 ， 具 体 使 用 什么 函数 要 看 训练 效果 如 



































4) 数据 预 处 理 。 输 入 数据 五 花 八 门 ， el ERE Le S RT 
通过 预 处 理 权 值 矩阵 使 进入 神经 网 络 的 数值 不 会 过 大 或 过 小 ， 以 保证 通过 中 间 | 
神经 元 时 ， 和 输出 不 逼近 其 极限 。 


先 来 看 图 8-14， 上 面 显示 的 数据 散乱 且 不 均匀 。 
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散乱 的 数据 
是 : 将 图 8-14 中 的 数据 转化 为 如 图 8-15 所 示 的 形式 ， 数 据 均 匀 地 分 


系 中 ，4 个 象限 均 有 数据 存在 。 


图 8-14 


未 


数据 预 处 理 的 目 忆 
aN 


布 在 坐 书 


DR ee eee 
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图 8-15 ”均匀 分 布 的 数据 


前 面 讲 述 了 多 层 感知 器 的 理论 基础 ， e 个 多 层 感 知 器 ， 理 论 联系 
实践 ， 这 样 才能 更 好 地 理解 反 向 传播 算法 和 多 层 感知 器 这 里 要 实现 的 是 使 用 感知 器 将 一 
人 对 下 面 这 组 输入 数据 和 输出 目标 进行 训练 ， 对 未 知 
行 仿 真 测 记 





























x = [[4,11], [7,340], [19,95], [3,29], [7,43], [5,128]] 
d =[[1,0], [0,1], [1,0], [0,1], [1,9], [0,1]] 


为 了 简化 实现 过 程 ， | 
权 值 初始 值 既 要 保证 权 值 矩阵 实现 输入 项 在 网 络 中 均匀 分 要 保证 权 值 矩阵 本 身 的 均 
匀 za) T 目的 ， 随 机 生成 藻 干 个 权 值 矩阵 ， Re SA TR SEI RC IBLE. 
最 未 


D 对 于 输入 层 的 权 值 设计 ， 要 尽量 使 输入 数据 的 方差 接近 1。 此 外 ， 对 于 相差 较 大 
的 样本 ， 将 它们 处 鱼 为 分 布 不 太 接 这 饱和 的 可 俯 :训练 的 输入 数据 。 


2) 权 值 矩阵 的 均值 要 尽 可 能 小 ， 其 方差 尽 可 能 与 神经 元 的 突 触 连接 数 成 反比 。 


同时 ， 要 考虑 到 数据 的 预 处 理 ， 需 要 在 输入 层 前 设置 一 所 有 的 
输入 经 过 预 处 理 权 值 矩阵 处 理 后 进入 多 层 感 知 器 的 输入 层 。 代 码 如 下 
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# 对 输入 数据 进行 预 处 理 


ann_max=[] 

for m_ani in xrange(0,warray_txn): 
temp_x=np.array(train_x) 
ann_max.append(np.max(temp_x[:,m_ani])) 

ann_max=np.array(ann_max ) 

def getnowsx(mysx, in_w): 

' ! 生 成 本 次 的 扩 维 输入 数据 





global warray_n 
mySx=np.array(mysx) 
x_end=[] 
for i in xrange(0,warray_n): 
x_end.append(np.dot(mysx, in_w[:,i])) 
return x_end 
def get_inlw(my_train_max,w_count,myin_x): 
" "计算 对 输入 数据 预 处 理 的 权 值 








# 对 随机 生成 的 多 个 权 值 进行 优化 选择 ， 选 择 最 优 的 权 值 


global warray_txn 
global warray_n 
mylw=[] 





y_in=[] 
# 生 成 测试 权 什 


mylw=np.random.rand(w_count,warray_txn,warray_n) 
for ii in xrange (0,warray_txn): 
mylw[:,ii, :]=mylw[:,ii, :]*1/float(my_train_max[ii])-\ 
1/float(my_train_max[ii])*0.5 
# 计 算 输出 
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for i in xrange(0,w_count): 
y_in.append([]) _ 
for xj in xrange(0,len(myin_x)): 
y_in[i] .append(getnowsx(myin_x[xj],mylw[i])) 
Hit SIT 


mymin=10**5 
mychoice=0 
for i in xrange(0,w_count): 
myvar=np.var(y_in[i]) 
if abs(myvar-1)<mymin: 
mymin=abs(myvar -1) 
mychoice=i 
数据 整理 的 权 值 矩阵 





Ria 
mi 
u 











return mylw[mychoice] 
mylnww=get_inlw(ann_max, 300, train_x) 
def get_inputx(mytrain_x,myin_w): 

"将 训练 数据 通过 输入 权 数 ， 扩 维 后 形成 输入 数据 


end_trainx=[] 
for i in xrange(0,len(mytrain_x)): 
end_trainx.append(getnowsx(mytrain_x[i],myin_w) ) 
return end_trainx 
x=get_inputx(train_x, mylnww) 
def get_siminx(sim_x): 
global mylnww 
myxXx=np.array(sim_x) 
return get_inputx(myxx, mylnww) 
def getlevelw(myin_x,wo_n,wi_n,w_count): 
" “计算 一 层 的 初始 化 权 值 矩阵 


mylw=[] 
y_in=[] 
# 生 成 测试 权 值 





mylw=np. random. rand(w_count, wi_n,wo_n) 
mylw=mylw*2.-1 
# 计 算 输出 


for i in xrange(0,w_count): 
y_in.append([]) 
for xj in xrange(0,len(myin_x)): 
x_end=[] 
for myii in xrange(0,wo_n): 
x_end.append(np.dot(myin_x[xj],mylw[i, :,myii])) 
y_in[i].append(x_end) 
# 计 算 均 方差 


mymin=10**3 
mychoice=0 
for i in xrange(0,w_count): 
myvar=np.var(y_in[i]) 
if abs(myvar-1)<mymin: 
mymin=abs(myvar -1) 
mychoice=i 
数据 整理 的 权 值 矩阵 
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csmylw=mylw[mychoice] 

return csmylw, y_in[mychoice] 
ann_w=[] 
def init_annw(): 
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global X 

global hidelevel_count 

global warray_n 

global d 

global ann_w 

ann_w=[] 

lwyii=np.array(x) 

for myn in xrange(0,hidelevel_count): 
# 层 数 


ann_w.append([]) 
if myn==hidelevel_count-1: 
for iii in xrange(0,warray_n): 
ann_w[myn].append([]) 
for jjj in xrange(0,warray_n): 
ann_w[myn][iii].append(0.0) 
elif myn==hidelevel_count-2: 
templw, lwyii=getlevelw(lwyii, len(d[0]),warray_n, 200) 
for xii in xrange(0,warray_n): 
ann _w[myn] . append([]) 
for xjj in xrange(0,len(d[0])): 
ann_w[myn] [xii] .append(templw[xii, xjj]) 
for xjj in xrange(len(d[0]),warray_n): 
ann_w[myn] [xii] .append(0.0) 
else: 
templw, lwyii=getlevelw(lwyii, warray_n,warray_n, 200) 
for xii in xrange(0,warray_n): 
ann_w[myn].append([]) 
for xjj in xrange(0,warray_n): 
ann_w[myn] [xii] .append(templw[xii, xjj]) 
ann_w=np.array(ann_w) 
def generate_lw(trycount): 
global ann_w 
print uU" 产 生 权 值 初始 矩阵 





meanmin=1 
myann_w=ann_w 
alltry=30 
tryc=0 
while tryc<alltry: 
for i_i in range(trycount): 
print ".", 
init_annw() 
if abs(np.mean(np.array(ann_w) ))<meanmin: 
meanmin=abs(np.mean(np.array(ann_w) ) ) 
myann_w=ann_w 
tryct=1 
if abs(np.mean(np.array(myann_w) ) )<0.008: break 
ann_w=myann_w 
print 
print u" URIE PEFS 





:%f"%(np.mean(np.array(ann_w) ) ) 
print u" SUE HEM A 22 


:%F"%(np.var(np.array(ann_w) ) ) 
generate_lw(15) 














此 外 ， 只 需要 输出 一 个 值 ， 在 这 里 不 使 用 硬 限 幅 函 数 ， 而 是 返回 最 大 值 的 索引 ， 
需 编写 对 输出 值 进行 最 后 加 Tie Mt 注意， 为 了 由 浅 入 深 讲解 ， 从 
声明 ， 误 差 率 的 计算 以 最 后 此 函数 的 输出 结果 为 标准 ) 。 的 定义 








ibe 














此 
确 








def o_func(myy): 
myresult=[] 
for i in xrange(0,len(myy)): 
mean=np.mean(myy ) 
if myy[i]>mean: 
myresult.append(1.0) 
else: 
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myresult.append(0.0) 
return np.array(myresult) 





Fa; 


可 选择 tanh 函 数 作为 非 线 性 神经 元 的 激活 函数 ， 它 的 输出 值 在 L-1, 1] 范围 


p 下 面 代 码 完成 激活 函数 (Cann_atanh 函 数 ) 及 其 局 部 梯度 (ann_delta_atanh 函 数 ) 的 计 





def 


def 





ann_atanh(myv): 
atanh_a=1.7159#>0 
atanh_b=2/float(3)#>0 
temp_rs=atanh_a*np.tanh(atanh_b*myv) 
return temp_rs 
ann_delta_atanh(myy,myd, nowlevel, level, n, mydelta, myw): 
anndelta=[] 
atanh_a=1.7159#>0 
atanh_b=2/float(3)#>0 
if nowlevel==level: 
# 输 出 层 





anndelta=(float(atanh_b)/atanh_a)*(myd-myy)*(atanh_a-myy)*(atanh_at+myy) 
else: 
# 隐 藏 层 





anndelta=(float(atanh_b)/atanh_a)*(atanh_a-myy)*(atanh_a+myy) 
temp_rs=[] 
for j in xrange(0,n): 
temp_rs.append(sum(myw[j]*mydelta) ) 
anndelta=anndelta*temp_rs 
return anndelta 





下 面 介绍 反 向 传播 的 核心 算法 ， 算 法 分 为 前 向 计算 和 反 向 计算 两 个 过 程 。 代 码 如 





def 


sample_train(myx, myd, n, sigmoid_func, delta_sigfun): 
'"' 一 个 样本 的 前 向 和 后 向 计算 


global ann_yi 

global ann_delta 
global ann_w 

global ann_wj0 

global ann_y0 

global hidelevel_count 
global alllevel_count 
global learn_r 

global train_a 

global ann_oldw 
level=hidelevel_count 
allevel=alllevel_count 
# 清 空 


Yi 输出 信号 数组 


0 开始 


hidelevel=hidelevel_count 

alllevel=alllevel_count 

for i in xrange(0,alllevel): 
# 第 一 维 是 层 数 ， 从 


for j in xrange(0,n): 
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# 第 二 维 是 神经 元 


ann_yi[i][j]=0.0 
ann_yi=np.array(ann_yi) 
yi=ann_yi 
# 清 空 


de1lta 和 矩阵 


for i in xrange(0,hidelevel-1): 
for j in xrange(0,n): 
ann_delta[i][j]=0.0 
delta=ann_delta 
# 保 留 


W 的 拷贝 ， 以 便 下 一 次 迭代 


ann_oldw=copy .deepcopy(ann_w) 
oldw=ann_oldw 
# 前 向 计算 





if isdebug:print u" 前 向 计算 中 


# 对 输入 变量 进行 预 处 理 





myo=np.array([]) 
for nowlevel in xrange(0,alllevel): 


# 一 层 层 向 前 计算 


# 计 算 诱 导 局 部 域 


my_y=[] 
myy=yi[nowlevel-1] 
myw=ann_w[nowlevel-1] 
if nowlevel==0: 

# 第 一 层 隐 藏 层 


my_y=myX 
yi[nowlevel]=my_y 

elif nowlevel==(alllevel-1): 
# 输 出 层 





my_y=o_func(yi[nowlevel-1, :len(myd)]) 
yi[nowlevel, :len(myd)]=my_y 

elif nowlevel==(hidelevel-1): 
# 最 后 一 层 输出 层 


for i in xrange(0,len(myd)): 
temp_y=sigmoid_func(np.dot(myw[:,i],myy) ) 
my_y.append(temp_y) 
yi[nowlevel, :len(myd) ]=my_y 
else: 
# 中 间 隐 藏 层 
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for i in xrange(0,len(myy)): 


temp_y=sigmoid_func(np.dot(myw[:,i],myy) ) 


my_y.append(temp_y) 


yi[nowlevel]=my_y 
if isdebug: 
print u"****** 本 样本 训练 的 输出 矩阵 


KKKKKKKKKEM 


print yi 


1 Wk KARR KAR KK RRR RRR KR RR KR RK RRR KR RR KR KI 
rint u 


# 计 算 误差 与 均 方 误差 





# 因 为 线性 输出 层 为 直接 复制 ， 所 以 取 非 线性 隐藏 输出 层 的 结 


myo=yi[hidelevel-1][:len(myd) ] 
myo_end=yi[alllevel-1][:len(myd) ] 
mymse=get_e(myd,myo_end) 

# 反 向 计算 





# 输 入 层 不 需要 计算 


delta, 输出 层 不 需要 计算 





if isdebug:print u" 反 向 计算 中 


# 计 算 


delta 
for nowlevel in xrange(level-1,0,-1): 
if nowlevel==level-1: 
mydelta=delta[nowlevel] 
my_n=len(myd) 
else: 


mydelta=delta[nowlevel+1] 


my_n=n 

myw=ann_w[nowlevel ] 

if nowlevel==level-1: 
# 输 出 层 


mydelta=delta_sigfun(myo,myd, None, None, None, None, None) 


## mydelta=mymse*myo 
elif nowlevel==level-2: 








# 输 出 隐藏 层 的 前 一 层 ， 传 输 相当 于 输出 隐藏 层 的 神经 元 数目 的 数据 


mydelta=delta_sigfun(yi[nowlevel],myd, nowlevel, level- 


1,my_n,mydelta[:len(myd)],myw[:, :len(myd)]) 
else: 


mydelta=delta_sigfun(yi[nowlevel],myd, nowlevel, level-1,my_n,mydelta, myw) 


delta[nowlevel][:my_n]=mydelta 
# 计 算 与 更 新 权 值 





for nowlevel in xrange(level-1,0,-1): 
# 每 个 层 的 权 值 不 一 样 





if nowlevel==level-1: 
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# 输 出 层 


my_n=len(myd) 

mylearn_r=learn_r*0.8 

mytrain_a=train_a*1.6 
elif nowlevel==1: 

# 输 入 层 


my_n=len(myd) 

mylearn_r=learn_r*0.9 

mytrain_a=train_a*0.8 
else: 

















# 其 他 层 





my_n=n 
mylearn_r=learn_r 
mytrain_a=train_a 
pre_level_myy=yi[nowlevel-1] 
pretrain_myww=oldw[nowlevel-1] 
pretrain_myw=pretrain_myww[:, :my_n] 
# 第 二 个 调整 参数 


temp_i=[] 
for i in xrange(0,n): 

temp_i.append([]) 

for jj in xrange(0,my_n): 

temp_i[i] .append(mylearn_r*delta[nowlevel, jj]*pre_level_myy[i]) 

temp_rs2=np.array(temp_i) 
temp_rsi=mytrain_a*pretrain_myw 
# 总 调整 参数 


temp_change=temp_rs1+temp_rs2 
my_ww=ann_w[nowlevel-1] 
my_ww[:, :my_n]+=temp_change 
if isdebug: 
print 和 
print u"*** 权 值 和 矩阵 


大 类 类 是 


print ann_w 
print u" *** p RERE 


大 类 类 是 


print delta 
print 用 二 三 三 汪 三 二 三 三 三 三 三 三 三 1 
return mymse 





还 需要 训练 神经 网 络 ， 并 读 取 测试 数据 ， 验 证 效果 。 其 中 ， 训 练 神经 网 络 的 代码 如 








train() 

delta_sigfun=ann_delta_atanh 

sigmoid_func=ann_atanh 

i=0 

for xn in xrange(0,len(x)): 
print u" 样 本 : 


%d~%d => "%(train_x[xn][0], train_x[xn][1]) 
print simulate(x[xn],sigmoid_func, delta_sigfun) 
print u"===== 正 确 目 标 值 
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print d[i] 
it=1 





验证 神经 网 络 的 代码 如 下 : 








test=np.array(get_siminx([[8,70]])) 
print u" 测 试 值 : 


%f %F "%(8,70) 
print simulate(test, sigmoid_func, delta_sigfun) 
print u" 正 确 目标 值 


:[1,0]" 
test=np.array(get_siminx([[6.5,272]])) 
print u" 测 试 值 : 


%f %F "%(6.5,272) 
print simulate(test,sigmoid func,delta sigfun) 
print u" 正 确 目 标 值 





:[9,1]" 
exitstr=raw_input(u" 按 





tt 
ae 
= 
FE 














") 


运行 上 述 程序 ， 经 过 78 次 训练 ， 神 经 网 络 达到 了 训练 目标 ， 误 差 率 为 0。 从 以 下 运行 
结果 来 看 ， 效 果 不 错 。 











i H HEHHEE 误差 为 : 


Sere ale H HEHHEE 误差 为 : 


0.577350 
ee 开始 第 


SEE H HEHHEE 误差 为 : 





0 .9000090 训练 成 功 ， 正 在 进行 检验 


仿真 计算 中 








仿真 计算 中 
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仿真 计算 中 


仿真 计算 中 


仿真 计算 中 








仿真 计算 中 


训练 成 功 


RAN: 


0 .900090 样本 : 


4~11 => 仿真 计算 中 





0.] 
===== 正 确 目标 值 





[1，9] 样 本 : 


7~340 => 仿真 计算 中 





1.] 
===== 正 确 目 标 值 


[0，1] 样 本 : 


10~95 => 仿真 计算 中 





. 0.] 
===== 正 确 目标 什 


[1，9] 样 本 : 


3~29 => 仿真 计算 中 








[ 06. 1.] 
===== 正 确 目 标 什 
To, 1J: 


7~43 => 仿真 计算 中 





[1 6.] 
===== 正 确 目 标 值 
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[1, 90] 样本: 


5~128 => 仿真 计算 中 





1.] 
===== 正 确 目标 什 


[9，1] 测 试 值 ; 


8.000000 70.000000 仿真 计算 中 





[ 1. 0. ] 正 确 目标 值 


: [1, 0] 测试 值 : 


6.500000 272.000000 仿真 计算 中 





[ 0. 41. ] 正确 目标 值 








: [9, 1] 按 回 车 键 退出 














上 述 多 层 感 知 器 的 完整 源 代码 见 本 书 资源 包 中 的 “多 层 感 知 器 神经 网 络 源 代码 .doc” 文 
件 或 8-10.py 文 件 。 


前 面 用 例子 说 明了 Rosenblatt 感 知 器 的 局 限 性 ， 现 在 在 多 层 感知 器 上 对 Rosenblatt 感 知 











器 无 法 分 类 的 数据 进行 测试 。 将 “多 层 感 知 器 神经 网 络 源 代码 .doc” 文 件 中 的 代码 中 的 样本 
数据 进行 修改 ， 并 加 上 绘制 散 点 图 的 代码 。 

#X 和 

d 样 本 初始 化 


train x = np.array([[1,6], [3,12], [3,9], [3,21], [2,16], [3,15]]) 
d =np.array([[1,0], [1,0], [0,1], [0,1], [1,0], [9,1]]) 


for xn in xrange(0,len(x)) 
if simulate(x[xn],sigmoid_func,delta_sigfun)[0] > 0: 
pl.plot(train_x[xn] [0], train_x[xn][1],"bo") 
else: 
pl.plot(train_x[xn] [0], train_x[xn][1],"b*") 
pl.show() 





iB IT TR a oe 进行 训 | 练 ，，i 川 练 成 功 后 ， 误差 为 0。 如 图 8- re 练 效 果 ， 
实心 圆圈 与 星 号 分 另 ie 两 类 样本 点 eRe 知 器 网 络 的 非 线性 分 类 成 功 完 成 
Rosenblatt 感 知 器 无 法 完成 的 任务 。 
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图 8-16 多 层 感知 器 网 络 的 非 线 性 分 类 
现在 在 上 述 代 码 基 础 上 ， 加 a 将 学 习 率 设 得 较 小 ， 进 一 步 观察 多 





层 感知 器 的 非 线性 分 类 能 力 。 代 码 如 下 





#!/usr/bin/env python: 
#-*- coding: utf-8 - 
#code:myhaspl@qq.com 
#8-11.py 

import pylab as pl 
import numpy as np 
import random 

import copy 
isdebug=False 

#X 和 


d 样 本 初始 化 


train x = np.array([[1,6],[3,12], [3,9], [3,21], [2,16], [3,15]]) 
d =np.array([[1,0], [1,0], [0,1], [0,1], [1,0], [9,1]]) 


train() 
delta_sigfun=ann_delta_atanh 
sigmoid_func=ann_atanh 
temp_x=np.random. rand(20)*10 
temp_y=np. random. rand(20)*20+temp_x 
myx=temp_x 

myy=temp_y 

pl.subplot (111) 

X_max=np.max(myx)+5 
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X_min=np.min(myx)-5 
y_max=np.max(myy)+5 
y_min=np.min(myy) -5 
pl.xlabel(u"x1") 
pl.xlim(x_min, x_max) 
pl.ylabel(u"x2") 
pl.ylim(y_min, y_max) 
i=0 
for mysamp in myx: 

test=get_siminx([[mysamp, myy[i]]]) 

if simulate(test,sigmoid_func,delta_sigfun)[0] > 0: 
pl.plot(mysamp, myy[i],"ro") 
else: 

_ pl.plot(mysamp,myy[i],"g*") 

i+=1 
for xn in xrange(0,len(x)): 

if simulate(x[xn],sigmoid_func,delta_sigfun)[0] > 0: 
pl.plot(train_x[xn][0], train_x[xn][1],"bo") 
else: 
pl.plot(train_x[xn] [0], train_x[xn][1],"b*") 

pl.show() 











0 5 10 


图 8-17 ” 非 线 性 分 类 


在 多 层 感 知 器 学 习 中 ， 经 常 需要 用 到 一 个 概念 : ANR. RA NRAN 
维 坐 标 系 中 ，X 轴 表示 训练 次 数 ，Y 轴 表示 每 次 训练 的 误差 率 。 理 想 的 误差 曲线 是 随 着 
的 增加 ，Y 值 不 断 平滑 减少 ， 这 与 误差 曲面 相似 ， 误 差 晶 面 以 参数 为 自 变量 ZA 
地 体现 了 梯度 下 降 的 概念 。 它 们 都 说 明了 一 个 道理 : 一 个 设计 良好 的 多 层 感知 器 ， 随 着 训 
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前 面 为 了 讲述 的 需要 , “多 层 感 知 器 神经 网 络 源 代码 .doc" 文 件 所 示 代 码 对 误差 率 的 计 
算 以 最 终 输 出 结果 为 依据 计算 ， 现 在 在 神经 网 络 输出 层 的 后 面 再 增加 一 层 最 终 输出 层 ， 对 
原 输出 层 的 结果 进行 再 次 加 工 后 输出 。 本 书 在 以 后 涉及 的 相关 代码 中 ， 如 未 特别 说 明 ， 最 
终 输出 结果 是 指 新 增 的 最 终 输 出 层 的 输出 结果 。 在 此 ， 将 误差 率 的 计算 公式 定义 为 : 























设置 好 网 络 的 相关 参数 ， 将 期 望 误差 率 设 置 为 0.3， 然 后 加 入 绘制 误差 曲线 的 代码 。 
人 al 站 绍 一 下 前 面 没有 具体 涉及 的 问题 ， 中 间 隐 茂 层 、 学 习 率 及 动量 参 








一 般 认 为 ， 增 加 隐藏 层 数 可 以 降低 网 络 误差 ， 提 高 a 当 
Rte Ae Fe V 但 从 实践 经 验 来 看 ， 隐 藏 Fi Mi I Se BLT Se 
的 学 习 ， 隐 藏 层 的 增多 增 iy IRA TGH SN 过 拟 合 ”的 概率 。 

设计 神经 网 络 至 少 应 考虑 3 层 网 络 ， 其 中 有 一 层 隐藏 层 ， 在 这 里 将 隐藏 层 的 层 数 及 每 
层 节点 数 定义 为 如 下 形式 : 

隐藏 层 的 层 数 = 每 个 样本 的 元 素 个 数 x4-2 

每 个 隐藏 层 的 节点 数 = 训 练 样本 数 -1 

目前 仍 有 学 者 在 对 学 习 率 和 动量 参数 进 人 了 研究。 什么 样 的 学 习 率 能 既 加 快 神经 网 络 


的 训练 时 间 ， 同 时 又 能 提高 训练 精度 呢 ? 动量 参数 设置 为 多 少 ， 更 适合 当前 学 习 率 ， 让 误 
ee a 
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如 果 E: m 
wen nae meal me Give i KENAM Baer a 动量 参数 也 存在 

自问 笔者 认为 这 些 参数 需要 在 实践 应 用 中 进行 调试 和 测试 ， 通 过 对 训练 效果 反复 
Hie HEM SEAM BM. 


根据 以 上 设计 思路 ， 用 Python 在 “多 层 感知 器 神经 网 络 源 代 码 .doc" 文 件 代码 的 基础 上 
实现 。 代 码 如 下 : 





#!/usr/bin/env python 

#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 

#8-12.py 

import numpy as np 

import matplotlib.pyplot as plt 
import random 

import copy 

isdebug=False 

#X 和 


d 样 本 初始 化 


train x = [[4,11], [7,340], [10,95], [3,29], [7,43], [5,128]] 
d =[[1,0], [0,1], [1,0], [0,1], [1,0], [0,1]] 


warray_txn=len(train_x[0]) 
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warray_n=len(train_x)-1 
# 基 本 参数 初始 化 


oldmse=10**100 
fh=1 
maxtrycount=500 
mycount=0.0 

if maxtrycount>=20: 
r=maxtrycount/10 
else: 
r=maxtrycount/2 
#Sigmoid 函 数 


ann_sigfun=None 
ann_delta_sigfun=None 
# 总 层 数 初始 化 ， 比 非 线性 导数 多 一 层 线性 








NII 


alllevel_count=warray_txn*4 
# 非 线性 层 数 初始 化 


hidelevel count=alllevel count 
# 学 习 率 参数 


learn_r0=0.02 
learn_r0*=2.5 
learn_r=learn_roO 
# 动 量 参数 


train_a0=learn_r0*1.2 
train_a0*=0.0015 
train_a=train_ad 

# 误 差 率 


expect_e=0.3 


X_max=len(err) 

x_min=1 
y_max=max(err)+0.2 
y_min=0. 
plt.xlabel(u"traincount") 
plt.xlim(x_min, x_max) 
plt.ylabel(u"mse" 
plt.ylim(y_min, y_max) 
lp_x1 = xrange(1, len(err)+1) 
lp_x2 = err 
plt.plot(1p_x1,1p_x2, 'g-') 
plt. show() 


运行 代码 ， 执 行 结果 如 下 : 


Se H HEHHEE 误差 为 : 
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0.309623 


HE [ 始 第 




















3 H HEHHEE 误差 为 : 


0.330235 


et ee [ 始 第 




















汪汪 H HEHHEE 误差 为 : 


0 ,284128 训 练 成 功 ， 正 在 进行 检验 


仿真 计算 中 


仿真 计算 中 


仿真 计算 中 


仿真 计算 中 


仿真 计算 中 








仿真 计算 中 


训练 成 功 


,输出 误差 为 : 


0 .000000 样 本 : 


4~11 => 仿真 计算 中 





[ 1. 0.] 
===== 正 确 目 标 值 
[4，0] 样 本 : 


7~340 => 仿真 计算 中 





1.] 
===== 正 确 目标 值 


[9，1] 样 本 : 


10~95 => 仿真 计算 中 





[ 1， 0.] 
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===== 正 确 目标 值 


[1, 9] 样 本 : 





3~29 => 仿真 计算 中 


1.] 
===== 正 确 目标 值 


[9，1] 样 本 : 


7~43 => 仿真 计算 中 





0.] 
===== 正 确 目标 值 


[1，9] 样 本 : 


5~128 => 仿真 计算 中 





1.] 
===== 正 确 目标 什 


[O, 1] mutt: 


8.000000~70.000000 仿真 计算 中 





[ 1. 0.] 正 确 目标 什 


: [4,0] 测试 值 : 


6.500000~272.000000 仿真 计算 中 





[ 0. 1. ] 正确 目标 值 


:[9,1] 





从 上 述 代 码 执行 结果 中 不 难看 出 ， 网 络 在 139 次 训练 后 ， 达 到 了 训练 误差 的 期 望 值 


0.3， 对 测试 数据 和 样本 数据 的 验 训 


现下 请 趋势。 
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FE 均 成 功 。 再 来 看 看 如 图 8-18 所 示 的 误差 曲线 ， 总 体 呈 
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图 8-18 ”误差 曲线 〈 附 彩 图 ) 

_ 图 8-18 中 的 曲线 并 不 平滑 ， 如 果 将 学 习 率 设 得 更 小 ， 曲 线 将 平滑 很 多 ， 训 练 次 数 也 
兽 多 。 现 在 修改 代码 ， 将 学 习 率 减少 ， 重 新 绘制 误差 曲线 图 。 





#!/usr/bin/env python 

#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 

#8-13.py 

import numpy as np 

import matplotlib.pyplot as plt 
import random 

import copy 

isdebug=False 

#X 和 


d 样 本 初始 化 


train x = [[4,11], [7,340], [10,95], [3,29], [7,43], [5,128]] 
d =[[1,0], [0,1], [1,0], [9,1], [1,9], [0,1]] 
warray_txn=len(train_x[0]) 

warray_n=len(train_x)-1 

# 基 本 参数 初始 化 
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oldmse=10**100 
fh=1 
maxtrycount=2000 
mycount=0.0 

if maxtrycount>=20: 
r=maxtrycount/10 
else: 
r=maxtrycount/2 
#Sigmoid 函 数 


ann_sigfun=None 
ann_delta_sigfun=None 





# 总 层 数 初始 化 ， 比 非 线性 导数 多 一 层 线性 层 


alllevel_count=warray_txn*4 
# 非 线性 层 数 初始 化 


hidelevel_count=alllevel_count-1 


# 学 习 率 参数 


learn_r0=0.005 
learn_r0*=2.5 
learn_r=learn_ro 


H HEHHEE 误差 为 : 


H HEHHEE 误差 为 : 


H HEHHEE 误差 为 : 


357 次 训练 


worl bbt. cam DRWA 








mére 














全 H HEHHEHE 误差 为 : 


0.342834 
sama 开始 第 


ee H HEHHEE 误差 为 : 


人 H HEHHEHE 误差 为 : 


9.280097 训 练 成 功 ， 正 在 进行 检验 


仿真 计算 中 


仿真 计算 中 


仿真 计算 中 


仿真 计算 中 


仿真 计算 中 








仿真 计算 中 


训练 成 功 


r 输出 误差 为 


9.000000 样 本 : 


4~11 => 仿真 计算 中 








[ 1. 0.] 
===== 正 确 目标 值 
[1, 6] 样本 : 


7~340 => 仿真 计算 中 





[ 0. 1.) f 
===== 正 确 目标 值 


[9，1] 样 本 ; 


10~5 => 仿真 计算 中 
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0.] 
===== 正 确 目标 值 


[14，0] 样 本 : 





3===29 => 仿真 计算 中 


1] 
===== 正 确 目标 值 


[0，1] 样 本 : 


7~43 => 仿真 计算 中 





[1 0.] 
===== 正 确 目 标 值 


[ 工 ，9] 样 本 : 





5~128 => 仿真 计算 中 


1.] 
=-==== 正 确 目标 值 


[9，1] 测 试 值 ; 


8.000000~70.000000 仿真 计算 中 





[ 1. 9.] 正 确 目标 什 


: [1, 0] 测试 值 : 


6.500000~272.000000 仿真 计算 


[ 0. 1.] 正 确 目标 什 


: [0,1] 











从 执行 结果 可 看 出 ， 如 果 将 学 习 率 设 得 更 小 ， 训 练 次 数 确 实 增多 了 ， 由 100 多 次 


和 相 比 上 次 的 训练 ， 每 次 训练 的 误差 率 降 
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如 图 8-19 所 示 为 误 3 
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图 8-19 ”误差 曲线 
相 比 图 8-18 的 误差 曲线 ， 图 8-19 所 示 的 误差 曲线 下 降 趋 势 更 加 明显 ， 平 滑 很 多 ， 上 下 
摆动 的 幅度 也 减 小 了 不 少 。 
8.1.4 Python 神经 网 络 库 


人 善 了 线性 和 非 线 性 神经 网 络 ， 并 通过 Python 实现 了 神经 网 络 ， 逐 
步 闭 述 了 怎样 设计 一 个 神经 网 络 ， 如 何 改进 神经 网 络 ， 如 何 应 用 神经 网 络 完成 分 类 等 。 
面 的 章节 还 将 对 这 些 程序 代码 进行 改进 ， 介 绍 如 何 应 用 神经 网 络 进行 数据 拟 合 。 


“不 用 重复 造 轮子 ”， 实践 中 除非 条 件 限制 《比如 : 受 限 嵌入 式 环境 等 应 用 〉 必须 编 
写 所 有 的 神经 网 络 代码 ， 否则 可 以 直接 调用 神经 网 络 相关 的 库 。 


目 前 Python 关于 神经 网 络 的 库 较 多 ， 这 里 选择 纯 Python 库 实现 | 的 神经 网 络 库 
Neurolab， 在 第 2 章 中 已 经 介绍 过 它 的 安装 与 配置 方法 ， 在 此 不 再 介绍 ， 下 面 直接 讲述 如 
首先 进入 Python 的 控制 台 ， 以 前 几 节 的 数据 为 例 ， 熟悉 一 

法 。 











>>> import neurolab as 
>>> train_x = [[4,11], 7, 340), [10,95], [3,29], [7,43], [5,128]] 
>>> input=np.array(train_x 


>>> d =[[1], [0], [1], [0], [1], [91] 
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>>> target=np.array(d) 
>>> target 


array([[1]， 
[0], 
[1], 
[0], 
[1], 
[9]]) 
>>> Input 
array([[ 4, 11], 
[ 7, 340], 
[ 10, 95], 
[ 3, 29], 
[ 7, 43], 
[ 5, 128 


>>> net = nl.net.newff([[3, 10], [11, 400]], [5, 1]) 
>>> err = net.train(input, target, show=15) 

Epoch: 15; Error: 0.326594518922; 

Epoch: 30; Error: 0.0242485565317; 

The goal of learning is reached 





训练 完毕 后 ， 再 用 数据 测试 该 网 络 。 代 码 如 下 : 





>>> net.sim([[3, 10]] 
array([[ 0.99999326] ] 
>>> net.sim([[9, 80]] 
array([[ 0.89054486] ] 
>>> net.sim([[6.5,272 
array([[ 0.05707987]] 
>>> net.sim([[10, 80]] 
array([[ 0.9448553]]) 
>>> net.sim([[5,125]] 
array([[ 0.12198103] ] 
>>> net.sim([[5,100]] 
array([[ 0.18880761] ] 











上 述 代码 显示 ， 训 练 很 成 功 ， 测 试 数据 也 被 正确 分 类 。 


拥有 中 间 隐 藏 层 的 多 层 感 知 器 在 输入 与 输出 之 间 建 立 了 TU 
pee ua 模型 明确 定义 的 。 如 果 随 机 生成 无 规律 的 输入 a 
关系 完全 未 知 ， 那 么 是 不 能 建立 拥有 确定 数学 公式 的 映射 的 ， 但 可 通过 神经 网 络 来 建 
们 之 间 的 数学 模型 。 代 码 如 下 : 
































nee 

















s 








>>> import numpy as np 

>>> import neurolab as nl 

>>> input = np.random.uniform(-0.5, 0.5, (10, 2)) 
>>> output = np.random.uniform(-0.5, 0.5, (10, 1)) 
>>> err = net.train(input, output, show=15) 

>>> net nl.net.newff([[-0.5, 0.5], [-0.5, 0.5]], [8, 1]) 
>>> err = net.train(input, output, show=15) 

Epoch: 15; Error: 0.0676764691815; 

Epoch: 30; Error: 0.0131047452439; 

The goal of learning is reached 

>>> err[len(err)-1] 

0.0097660775986454906 





上 述 代 码 中 的 err[len(erD-1] 表 示 训 练 停止 后 的 误差 率 。 可 以 看 到 ， 训 练 后 精度 很 高 ， 
误差 率 小 于 0.01。 下 面 来 编写 代码 绘制 误差 曲线 。 








>>> import matplotlib.pyplot as plt 
>>> plt.plot(err) 
[<matplotlib.lines.Line2D object at 0x04C173B0>] 





htt 但 此 处 的 误差 来 源 


如 图 8-20 所 示 是 生成 的 误差 曲线 ， 能 明显 看 到 误差 
每 次 采集 一 次 。 因 此 ， 图 8-20 比 


数据 是 训练 15 次 采集 二 次， 前 几 节 中 的 误 IE MA TERE 
前 几 节 的 误差 曲线 更 为 平滑 。 
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图 8-20 ”误差 曲线 


通过 多 层 感 知 器 神经 网 络 ， 在 这 组 没有 联系 的 随机 生成 的 输入 和 输出 之 则 “强行 ” 建 
一 种 映射 关系 。 在 测试 时 ， 通 过 未 在 样本 中 出 现 的 输入 数据 ， 能 得 到 符合 这 种 映射 天 
输出 。 这 种 映射 能 力 非 常 重要 ， 是 后 面 几 章 提 到 的 数据 拟 合 、 模式 识别 等 机 器 学 习 任 
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8.2 统计 算法 
统计 分 析 算 法 在 机 器 学 习 中 占有 重要 地 位 ， 在 此 ， 仅 介绍 几 种 常用 算法 。 











8.2.1 平均 值 





平均 值 是 统计 学 中 最 常用 的 统计 量 ， 用 来 表明 资料 中 各 观测 值 集 中 较 多 的 中 心 位 
置 ， 用 于 反映 现象 总 体 的 一 We 或 分 布 的 集中 趋势 。 有 限 总 体 的 平均 值 定义 为 : 


n 
XIN 
il 
式 中 ，h 表 示 总 体 平 均值 ，N 表 示 总 体 所 包含 的 个 体 数 。 
平均 值 的 意义 在 于 : 不 仅 可 用 它 来 反映 一 组 数据 的 一 般 情况 ， 还 可 以 进行 不 同 数 据 


oe 以 看 出 组 与 组 之 间 的 差别 。 下 面 随机 生成 两 组 随机 数 ， 对 它们 进行 分 析 。 
SY 下: 











>>> y 
>>> X 
>>> X 
array([ 


np.random.uniform(-0.5, 0 
np.random.uniform(-0.5, 0 


(10, 1)) 
(10, 1)) 


au 


-0.46954884], 
-@.39078561], 
05531789], 
-@.06414516], 
-@.00511995], 
-0.41105398], 
. 23416933], 
1369419 ] ， 
.45076555], 
1808625 ]]) 


1 
GQOe0O00000 


>>> y 

array([ . 38100971], 
.12510564], 
0540655 ], 
. 25050503], 
.13180995], 
. 32953768], 
-0.35940215], 
-0.00294618], 
. 23359633], 


[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[- 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 


too 1 
G@QQO0O000 000 


.49808591]]) 
>>> np.mean(y) 
-0.032300713545130311 
>>> np.mean(x) 
-0@.16524661414915703 





观察 上 述 代码 的 执行 结果 可 以 看 到 ，y 的 平均 值 为 -0.032300713545130311，x 的 平均 
值 为 -0.16524661414915703， vid PALF FO, 四 因此 ， 我 们 预言 ; y 的 总 体 分 布 要 比 x 
继续 在 Python 控制 台中 绘制 它们 在 坐标 系 中 的 分 布 ， 以 验证 这 个 预 
= 








>>> z=np.zeros(10) 

>>> Z 

array([ 0. 0., 0, ©, O. O. 0. 0. 0., 0.]) 
>>> xx=np. array(zip(z, x) ) ;yy= np array(zip(z, y)) 

>>> XX 

[ 0 , -0.46954884], 

[ 0. , -0.39078561], 

[ 0. 0.05531789], 
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[ 0. , -0.06414516], 
[ 0. , -0.00511995], 
[ 0. , -0.41105398], 
[ 0. , -0.23416933], 
[ 0. , ©.1369419 ], 
[ 0. , -0.45076555], 

Q. , ©.1808625 ]]) 


[ 
>>>import matplotlib.pyplot as plt 
>>> plt.xlim(-0.5, 0.5) 
(-0.5, 0.5) 
>>> plt.ylim(-0.01, 0.01) 
(-@.01, 0.01) 
>>> plot(yy[:,0],yy[:,1],'or') 
[<matplotlib.lines.Line2D object at 0x04EB44D0>] 
>>> plot(xx[:,0],xx[:,1],'*b' 
[<matplotlib.lines.Line2D object at 0x04CE2810>] 
>>> 
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图 8-21 数据 点 分 布 
8.2.2 方差 与 标准 差 
1. 标 准 差 
标准 差 是 一 组 数据 平均 值 分 散 程度 的 一 种 度量 方式 ， 其 计算 公式 为 : 
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较 大 的 标准 差 ， 代 表 大 部 分 数值 和 其 平均 值 之 间 差 异 较 大 ， 较 小 的 标准 差 ， 代 表 这 
些 数值 较 接 近 平 均值 。 


2752 
标准 差 的 平方 就 是 方差 ， 其 计算 公式 为 : 


Dali 


N 








0 


其 中 ，b 为 平均 值 。 
方差 与 标准 差 的 统计 意义 差不多 ， 都 是 反映 数据 平均 值 分 散 程度 。 
3.Python 实 现 


人 Oy gale Ae a ga 在 Python 控制 台 操作 ， 随 机 生成 一 组 x 和 y 
值 ，y 是 均匀 分 布 ，x 是 高 斯 分 布 。 代 码 如 下 














>>> y = np.random.rand(100) 
>>> x = np.random.normal(®.5, 0.00001, 100) 
>>>import matplotlib.pyplot as plt 





观察 x 的 分 布 趋势 ， 如 下 所 示 : 





>>> z=np.zeros(100) 

>>> xx=np.array(zip(x, Z)) ， 

>>> plot(xx[:,0],xx[:,1],'*b') 

[<matplotlib. lines. Line2D object at 0x04E06BF0>] 




















x 的 分 布 如 图 8-22 所 示 ， 数 据点 在 X 轴 上 分 布 不 均匀 ， 主 要 点 集中 在 0.5 附 近 ( 图 8-22 
的 基 值 是 4.9997e-1) ， 人 少量 点 散布 在 商 边 ， 这 是 预料 之 中 的 。 


x 是 高 斯 分 布 ， 随 机 生成 x 时 ， T 平均 值 0.5， 最 大 标准 差 为 0.00001。 高 
斯 分 布 就 是 正 态 分 布 ， 具 有 集中 性 的 特点 ， T et eee 即 平均 值 所 
在 的 位 置 ， 如 果 是 一 维 空 x 间 ， WISE oH esc Bich 34 (a 


观察 y 的 分 布 趋势 ， 如 下 所 示 : 



































>>> z=np.zeros(100) 
>>> yy=np.array(zip(y, eI 


>>> plot (yy[:,9],yy[:,1], 
[<matplotlib. lines. Line2D ee at Ox04E06BFO>] 
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从 分 布 图 8-23 来 看 ，y 均 匀 分 布 在 X 轴 上 ， 没 出 现 大 量 数 据点 聚集 的 情况 。 
0.06 


0.04 


0.02 


0.00 


—0.02 


一 0.04 


—0.06 
0.00000 0.00001 0.00002 0.00003 0.00004 0.00005 0.00006 


+4.9997e-1 
图 8-22 ”数据 点 分 布 
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图 8-23 ”数据 点 分 布 〈 附 彩 图 ) 
现在 分 别 求 出 x 和 y 的 平均 值 、 方 差 与 标准 差 。 





>>> np .mean(x )# 平 均值 





0.50000063672402462 
>>> np.var(x)#7# 


9.791184624177845e-11 
>>> np .std(x )# 标 准 差 


9.8950414977289737e-06 
>>> np .mean(y )# 平 均值 





0.52212510115195176 
>>> np .std(y )# 标 准 差 


0.28755684683792165 
>>> np.var(y)#7# 


0.082688940163367933 
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y 的 平均 值 与 x 接近 ， 但 其 方差 和 标准 差 不 一 Fe XAT ae eae ae at ey MES tix 
IRZ, ee 有 更 多 的 数值 集中 在 平均 值 0.5 附 近 ， 这 就 是 方差 和 标准 
统计 意义 


8.2.3” 贝 叶 斯 算法 





1. 贝 叶 斯 定理 


贝 叶 斯 定理 是 关于 随机 事件 A 和 B 条 件 概率 的 一 则 定理 ， 下 式 定义 了 在 事件 B 发 生 的 
tHE FAS ER OL 



































P(B\ A)P(A) 

P(B) 

假设 {Ai } 是 事件 集合 里 的 部 分 集合 ， 其 中 ，Al ，A2 ，…，An 是 某 个 过 程 中 若干 可 
能 的 前 提 ， 则 PCAi ) 是 对 各 前 提 条 件 出 现 可 和 & 性 的 事先 估计 ， 称 之 为 先 验 概率 。 如 果 在 这 
个 过 程 得 到 了 结果 B， 贝 叶 斯 公式 定义 了 P(Ai; |B), eee 出 现 概率 的 估 
计 ， 则 称 P(A;j |B) 为 后 验 概率 。 

对 于 任意 的 Ai ， 贝 叶 斯 定理 用 下 式 来 表示 : 


PB A)P(A) 


È P(B |A P(A) 


下 面 是 一 个 贝 叶 斯 算法 的 经 典 例子 。 
已 知 某 种 疾 疾病 的 发 病 率 是 0.001， 即 1000 人 中 会 有 1 个 人 得 病 ， 现 有 一 种 试剂 可 以 检验 


P(A|B)= 



































P(d,| B)= 



























































患者 是 否 得 病 ， 它 的 准确 率 是 0.99， 即 在 患者 确实 得 病 的 情况 下 a eh 
性 。 它 的 误 报 率 是 5%， 即 在 患者 没有 得 病 的 情况 下 ， 它 有 5% 的 可 能 呈现 阳性 。 现 有 一 
病人 的 检验 结果 为 阳性 ， 请 问 他 确实 得 病 的 可 能 性 有 多 大 ? 

















假定 A 事件 表示 得 病 ， 那 么 P(A) 为 0.001， 这 就 是 “ 先 验 概率 ”"， 即 没有 做 试验 之 前 预 
计 的 发 病 率 ; 假定 B 事 件 表示 阳性 ， 那 么 要 计算 的 就 是 P(A|B)， 即 “ 后 验 概率 ”， 表示 做 了 
试验 侈 后 对 发 病案 的 估计 。 计算 过 程 如 下 : 








miB-n 4) __ 
P(B\ APIA) + P(B IAPA) 
(4/B)=0.0 
0.99x0.001+0.05x0.999 
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使 检验 呈现 阳性 ， 病 人 得 病 的 概率 也 只 是 不 





通过 计算 ， Oe ee tee 即 

到 2%， 也 就 是 说 ， 呈 现 “ 假 阳性 >， 阳性 结果 完全 不 足以 说 明 病 人 得 病 。 
SK 
ae 


贝 叶 斯 算法 在 机 器 学 习 中 主要 用 于 分 类 ， 其 基本 原理 是 : 己 知 样本 X， 首 先 计 算 
P(X|Ci )， 得 出 Ci 类 别 包 含 样本 X 的 先 验 概率 ， 然 后 根据 贝 叶 斯 定理 求 后 验 概率 P(Ci |X), 
得 到 X 属 于 Ci 类 别 的 后 验 概率 ;最 后 根据 最 大 后 验 概率 判断 所 属 类 别 。 

2. 朴 素 贝 叶 斯 

贝 叶 斯 算法 的 基础 是 概率 推理 ， 是 在 各 种 条 件 的 存在 不 确定 、 仅 知 其 出 现 概率 的 情 
况 下 ， 完 成 推理 和 决策 任务 。 而 补 素 贝 叶 斯 算法 是 基于 独立 假设 的 ， 即 假设 样本 每 个 特征 
与 其 他 竺 征 都 不 相关 。 


尽 冒 实际 上 独立 假设 是 个 准确 的 ， 但 朴素 贝 叶 斯 分 类 器 的 知 干 特性 让 其 在 实践 
























































































































































中 能 够 取得 Genes eter ae 味 着 每 个 特征 的 分 布 都 可 以 独立 
地 被 当 作 一 维 分 布 来 估计 ， 减 轻 了 由 于 维 数 突 带 来 的 阻碍 ， 避 免 了 样本 规模 呈 指 数 增长 
et 朴素 贝 叶 斯 算法 的 应 用 实例 。 
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朴素 贝 叶 斯 算法 通常 在 自动 分 类 中 使 用 ， 算 法 的 主要 过 程 为 : 首先 ， 计 算 待 分 类 林 
es “TRIE ERA E J Set oR INP SIN HR 
































当 待 分 类 样本 拥有 若干 特征 变量 F] Fo, o Fo 时 ， 该 待 分 类 样本 属于 类 C 的 后 验 
概率 为 : 





CIE, F) - KOJEC 





其 中 ， 证 据 因子 Z 是 一 个 仅 依赖 F1 ，...，Fn 的 缩放 因子 ， 当 特征 变量 的 值 已 知 时 是 
一 个 常数 。 














在 朴素 贝 叶 斯 算法 中 ， 后 验 概 率 仅 依赖 于 两 个 因素 : 类 先 验 概率 p(C) 和 基于 独立 假 
设 的 先 验 概率 p(Fi |C)。 


上 面 的 推导 结果 解决 了 待 分 类 样本 后 验 概率 的 计算 问题 ， 余 下 的 问题 是 : 既然 得 到 
了 属于 每 个 类 别 的 后 验 概率 ， 如 何 知 道外 寺 分 类 样本 究竟 属于 哪个 类 别 呢 ?有 两 个 方法 : 使 
用 最 大 似 然 化 页 叶 斯 分 类 法 和 最 小 风险 贝 叶 基 分 SRE 


目前 普遍 使 用 的 是 最 大 似 然 比 员 叶 斯 分 类 方法 ， 即 : 选 出 最 有 可 能 的 那个 ， 将 待 分 
类 样本 划 归 到 后 验 概 率 量 大 的 水 一 类 中 ， 衣 称 为 最 大 后 验 概率 (MAP) 决策 准则 。 当 对 
取 最 大 后 验 概 率 决 策 时 ， 相 应 的 分 类 器 公式 定义 如 下 : 





m 















































n 
clasity(f,," f,)=argmax p(C = o| WF =f|C=c 
C i=l 

为 了 便于 理解 ， 去 除 这 些 繁杂 的 数学 符号 ， 将 最 终 的 分 类 器 定义 为 ; 
样本 所 属 类 别 =arg max(P( 类 型 )x 样 本 每 个 单独 属性 先 验 概率 的 累 乘 ) 
其 中 ，argmax 表 示 选 择 最 大 概率 的 类 别 为 最 终 类 别 ，P (类 别 ) 为 类 别 先 验 概率 ， 是 
































wawai bbt .cam DEE ATCHHE 
































指 该 类 别 本 身 的 可 能 性 有 多 少 。 


朴素 贝 叶 斯 虽然 是 基于 独立 假设 的 ， 但 实践 证 明 这 种 方法 确实 很 有 效 。 创 建 了 
Viaweb (1998 年 ，Viaweb 成 为 最 流行 的 电子 商务 软件 ， 被 雅虎 收购 ， SATB 的 
美国 著名 程序 员 Paul ”Graham 提出 使 用 朴素 贝 叶 斯 识别 垃圾 邮件 的 方法 ; 
等 标记 与 垃圾 邮件 、 非 垃圾 邮件 的 关联 ， 计 算 一 封 邮 件 为 垃圾 邮件 的 可 能 性 ， ea 
圾 邮件 的 判别 。 有 兴趣 的 读者 可 以 查阅 下 面 网 址 ; 


http://www.paulgraham.com/spam.html 


gy 假设 有 一 台 智 能 机 器 ， 负 责 将 一 扒 未 知 水 果 分 为 3 类 : 苹果 、 
oan BAL Heke, ERME 60%, FEL AZ 435%, ARE 
EN 92%0。 


现在 需要 一 位 工程 师 为 这 人 台 机 器 设计 一 个 机 器 学 习 算 法 ， 这 位 工程 师 选择 了 朴素 贝 
叶 斯 分 类 算法 ， 将 算法 过 程 定 义 为 如 下 形式 : 

首先 ， 计 算 P (类 别 )。 

P( 苹 果 )=0.6，P( 桂 圆 )=0.35，P( 香 态 )=0.05 


然后 ， A EEA FEES, SFREE, WE, EAR, 

们 的 先 验 概率 。 接着 ， 重 头 戏 开始 了 ， 识 别 未 知 水 果 。 机 器 面前 捍卫 一 个 这 样 的 水 果 用 

智能 ”， a AE 但 机 器 识别 出 来 不 容易 ， 目 前 人 工 智 能 水 平 远 没 达 
AGRE) | 如 图 8-24 所 示 。 
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图 8-24 FÆ 


机 器 要 做 的 识别 过 程 是 : 


1) 提取 这 个 未 知 样本 的 特征 : 重量 、 颜 色 、 形 状 。 重 量 测 量 使 用 称 重 仪器 ， 颜 色 靠 
色 敏 元 件 ， 形状 使 用 图 像 识别 算法 。 


2) 从 存储 器 中 取出 事先 计算 好 的 重量 、 颜 色 、 形 状 的 先 验 概 率 ， 设 这 个 未 知 水 果 的 
重量 、 颜 色 、 形 状 特征 值 为 ai 、a2 、a3 ， 它 们 各 自 的 先 验 概率 为 : 


P(ay PEA) =0.6，P(a2 | 苹果 )=0.4，P(a3 | 苹果 )=0.001 
P(al | 桂圆 ) =0.001，P(az | 桂圆 )=0.9，P(a3 | 桂圆 )=0.001 
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P(a1 |F) =0.6, P(a2 | 香花 )=0.9，P(as3 | 香 态 )=0.95 
其 中 ，a1 = 重量 ，a? = 颜色 ，a3 = 形状 。 

3) 计算 后 验 概 率 。 

设 这 个 未 知 水 果 为 x， 计 算 x 属 于 每 个 类 别 的 概率 。 
PCEA|X)=PCE Ray ，a2 ，a3 ) 

=PCER)X(P(a1 | 苹果 )xP(a2 PEAR) xP(a3 | 苹果 ) 
=0.6x(0.6x0.4x0.001) 

=0.6x0.00024 

=0.000144 

P( 桂 圆 |x)=P( 桂 圆 lal » az, a3) 

=P( 桂 圆 )x(P(al | 桂圆 )xP(a2 | 桂圆 xP(a3 | 桂圆 ) 
=0.35x(0.001x0.9x0.001) 

=0.000000315 


P(# FE |x)=P(FZlay a2, a3) 











=P(A #2) x(P(ay | FE) xP(an | 香蕉 ) xP(a3 [AFA 
=0.05x(0.6*0.9x0.95) 

=0.02565 

A) 寻找 最 大 后 验 概 率 得 到 所 属 类 别 ， 假 设 所 属 类 别 为 C。 
P(C|x)=argmax(P(*# R[x), POERI) PCA AR |x) 
=argmax(0.000144, 0.000000315, 0.02565) 

3 个 概率 中 ，0.02565 是 最 大 的 概率 ， 因 此 C= 香 矿 。 

5) 将 这 个 水 果 分 到 香花 堆 中 。 

在 本 书 的 12.3 节 将 进一步 讲解 贝 叶 斯 算法 。 
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8.3 KRES 





1. 数 学 原理 
以 R 表 示 实 数 域 。 对 任意 一 个 正 整 数 n， 实 数 的 n 元 组 的 全 体 构成 了 R 上 的 一 个 n 维 加 
量 空间 ， 用 RD 来 表示 ， 也 称 之 为 实数 坐标 空间 。RD 中 的 元 素 写 作 X=(x1 > XD ，.…，xn 





欧 氏 范 数 定义 Rn 上 的 距离 函数 〈 或 称 度量 ) : 


dv) 











这 个 距离 函 数 称 为 欧 几 里 得 度量 ， 也 称 欧 氏 下 离 。 欧 氏 距 离 通 常用 于 衡量 两 个 点 之 
阅 的 距离 ， 这 两 个 息 可 以 是 定义 在 二 维 裤 间 的 ， 也 可 以 是 定义 在 三 维 室 间 或 者 " 维 室 间 


2. 计 算 实 例 
假设 在 二 维 空间 中 ， 已 定义 两 个 点 : GB, 8) 和 (2，5) ， 其 欧 氏 距离 如 下 : 


d= 8-1-5 53.1623 


经 过 计算 ， 该 距离 为 3.1623， 两 点 在 空间 的 表示 如 图 8-25 所 示 。 该 距离 为 直线 的 长 
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图 8-25 ”二 维 空间 中 两 点 的 距离 





假设 有 两 点 : (2, 5, 7) 和 (3，8，2) ， 它 们 在 三 维 空间 的 欧 氏 距离 定义 为 : 


d=4|(3-2)+(5-8)+(7-2)'=5.9161 


经 过 计算 ， 该 距离 为 5.9161， 如 图 8-26 所 示 ， 该 距离 为 直线 的 长 度 。 
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图 8-26 三维 空间 中 两 点 的 距离 


n 维 欧 氏 空间 是 一 个 点 集 ， 它 的 每 个 点 X 可 以 表示 为 《x[1]，x[2]，...，x[n])， 其 中 
x[ijGi=1，2，.…，m) 是 实数 ， 称 为 X 的 第 i 个 坐标 ， 两 个 点 A=(a[1]，a[2]，.…，a[n]) 和 B= 
(b[1]，b[2]，...，b[n]) 之 间 的 距离 dA，B) 计 算 方式 如 下 : 


dd 下 =- 本 
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8.4 ”余弦 相似 度 
1. 数 学 原理 
1) 向 量 。 空 间 中 有 两 个 点 A 和 B，A->B 就 是 一 个 向 量 ， 可 以 读 成 从 A 到 B。 它 既 有 大 


小 又 有 方向 ， 设 原点 是 O， 给 定 空间 中 任意 一 点 A，OA 是 从 O 到 A 的 向 量 。 如 图 8-27 所 示 
就 是 一 个 定义 在 三 维 空间 上 的 向 量 OA。 


























图 8-27 向量 
2) 点 积 〈 内 积 ) 。 对 任意 两 个 向 量 x、y， 点 积 (x, y) (xy) OH: 


<i) >= ) ay SUI THY TETS, 
il 





RD 中 的 两 个 向 量 通过 点 积 的 方式 映射 成 一 个 实数 值 ，R 及 其 点 积 称 为 RQ 上 的 欧 几 
里 得 结构 ， 可 以 将 RD 称 为 n 维 欧 几 里 得 空间 ， 点 积 (, ) 称 为 欧 氏 点 积 


3) 向 量 长 度 。 向 量 X 的 长 度 定义 为 : 
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|xIEV<x,x>= 


上 式 又 称 为 Rn 上 的 欧 氏 范 数 。 
4) 余弦 相似 性 。 在 欧 氏 内 积 和 范 数 基础 上 定义 向 量 A 和 B 之 间 的 9 余弦 相似 性 如 





similarity= cos(0) = —— = 
JAIB] 





其 中 9 为 x 和 y 所 夹 的 内 角 。 
2. 算 法 原理 


余弦 相似 性 通过 测量 两 个 向 量 点 积 空 间 夹 角 的 余弦 值 来 度量 oA ss 0 度 
角 的 余弦 值 是 1， 而 其 他 任何 角度 的 余弦 值 都 不 大 于 1， 并 且 其 bie MILE 


两 个 向 量 之 间 的 角度 余弦 值 确 定 两 个 向 量 是 否 大 致 指向 相同 的 方向 。 两 个 向 量 有 相 
同 的 指向 时 ， 余 弦 相 似 度 的 值 为 1; 两 个 向 量 夹 角 为 90°* 时 ， 余 弦 相 似 度 的 值 为 0， 两 个 向 
量 指向 完全 相反 的 方向 时 ， 余 弦 相 似 度 的 值 为 -1。 


余弦 相似 度 通 常用 于 两 个 向 量 的 夹 角 在 90° 之 内 的 情况 ， 余 弦 相 似 度 的 值 为 0~1。 祭 
弦 相 似 度 可 用 在 任何 维度 的 向 量 比较 中 ， 因 此 在 高 维 空间 中 的 应 用 非常 广泛 。 


在 实际 应 用 中 ， 通 常会 先 提取 两 个 数据 的 特征 ， 每 个 数据 各 形成 一 个 n 维 向 量 ， 然 后 
通过 计算 这 两 个 向 量 的 余弦 相似 度 来 判定 这 两 个 向 量 是 否 是 同一 类 型 。 例 如 : 文本 分 类 、 
图 像 识别 等 都 能 使 用 余弦 相似 度 算 法 。 


pee A a, OA 与 OB 之 间 形 成 了 夹 角 a， 余 弦 相 似 度 如 果 大 于 C， 就 
认为 OA 与 OB 属 于 同一 ， 如 图 8-28 所 示 。 
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图 8-28 余弦 相似 度 
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8.5 SVM 


1992~19954F, Vapnik 等 在 SLT 的 基础 上 发 展 了 SVM 算法 。 它 在 解决 小 样本 、 非 线性 
及 高 维 模式 识别 问题 中 都 表现 出 了 许多 特有 的 优势 ， 目 前 已 经 成 为 与 神经 网 络 地 位 齐名 的 
算法 ， 在 样本 量 较 小 的 情况 下 ， 其 实际 运用 效果 甚至 超过 了 神经 网 络 。 





8.5.1 数学 原理 











SVM 中 文 名 为 文 持 向 量 机 ， 英 称 为 Support Vector Machine， 是 一 种 监督 式 学 习 
的 方法 。 CHIPS MSE BOE IER ; Yee cues 涉及 的 数学 知识 很 多 ， 如 果 将 其 相关 
里 论 以 及 推导 完全 展开 来 ， 能 写成 一 本 超过 300 页 的 书 。 因 此 ， 这 里 仅 简 单 介绍 SVM 的 基 


ZIN 








a 


1. 算 法 策略 


SVM 首先 将 向 量 映 射 到 一 个 更 高 维 的 空间 里 ， 在 其 中 建立 最 大 间隔 超 平面 ， 
分 开 ， 然后 ， 在 超 平面 两 边 再 设立 两 个 互相 平行 的 超 平面 ， i (EW 
PRERE SVM 假定 平行 超 平面 间 的 距离 或 差距 越 大 ， 分 类 器 的 总 误差 越 

















O 





图 8-29” 超 平面 


2. 超 平面 
超 平面 的 数学 形式 可 以 写作 : 
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w:x-b=0 
其 中 x 是 超 平 面 上 的 点 ，w 是 垂直 于 超 平面 的 向 量 。 
由 图 8-29 可 知 ， 平 行 超 平面 可 表示 为 以 下 两 个 方程 : 


w:x-b=1 











w'x-b=-1 
其 中 ，w 为 超 平面 的 法 向 量 ， 是 一 个 变量 。 


如 果 数 据 是 线性 可 分 的 ， 可 找到 两 个 超 平面 ， 在 它们 之 间 没 有 任何 样本 点 ， 并 且 这 
两 个 超 平面 之 间 的 距离 也 最 大 。 


这 两 个 超 平 面 之 间 的 距离 是 2/w|， 因此 因为 这 两 个 超 平面 之 间 没 有 
任何 样本 点 ， 所 以 xi 还 需要 满足 以 下 两 个 条 件 中 的 


























W'Xi -b21 

W'Xi -b<-1 

把 上 面 两 个 式 子 合 写 ， 将 变 成 ; 
Cj (w'Xi -b)>-1， 1<i<n 


3. 二 次 规划 最 优化 
二 次 规划 问题 可 以 用 以 下 形式 来 描述 。 
1) 函数 f(x) 定 义 为 : 
f(x)=(1/2)xT Qx+cl x 


其 中 ，xI 是 x 的 转 置 。 

2) 函数 受到 一 个 或 更 多 如 下 形式 的 限制 条 件 : 
Ax<b 

Ex=d 


如 果 Q 是 半 正 定 和 矩阵 ， IA f(x) Ar PR BL 如 果 有 至 少 一 个 向 量 x 满足 约束 而 且 
(OER ELE TE 一 这 规划 问题 页 就 有 一 个 全 局 最 小 值 x。 如 果 Q 是 正定 和 矩阵， 那么 全 局 
最 小 值 就 是 唯一 的 。 如 果 Q=0， 二 次 规划 问题 DA ERAAI 


再 来 看 SVM 算法 ， 该 算法 提出 了 两 个 要 求 : 超 平 面 之 间 没 有 任何 样本 点 ; 第 
=, AFA HE 人 
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minimize: W(a) My 


' T ¥ ` 
subject to y,(w'x;+b) > 1-&,Vi 
G2 Vi 
这 也 是 一 个 二 次 凸 规划 问题 。 
根据 优化 理论 ， 一 个 点 x 成 为 全 局 最 小 全 的 必要 条 件 是 让 


Tucker (KKT) 条 件 ， fo) 函数 时 ， KT 条 件 也 是 充分 ar ARETE 
FORK TE MALS, GOH BEA H 


maximize : (a) “hrs Zee ayy a, 


subject to 1<a,<C,)-a y,=0 











然后 引入 核 函 数 ， 最 后 的 目标 函数 为 : 


maximize: W (a) Yo . Y Yi ayy ky) 


i=] lina 


subject to: ya, y,=00<a<C,Vi 


i=l 
改写 为 矩阵 相 乘 的 格式 ， 得 到 : 


lt, n 
minimize: (@)=7a Qn-e 


i T s 
subject toya=0 0 <a < CELE 
最 终 的 目标 变 成 了 : 通过 训练 样本 寻找 a， 使 得 下 式 最 小 : 
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核 函 数 可 以 是 或 非 线性 的 ， 线 | 
既 可 以 完成 线性 分 类 ， 也 可 以 完成 非 线性 分 ? 


8.5.2 SMO 算法 








SMO (最 小 贯 序列 方法 ) 是 改进 的 SVM 训练 算法 ， 同 其 他 SVM 训练 算法 一 样 ，SMO 
会 将 一 ee ee 样 的 是 ，SMO 处 理 的 是 
规模 最 小 的 QP 问题 ， 因此 能 够 快速 解决 并 获得 解析 解 ， 而 且 能 够 有 效 地 改善 空间 和 时 间 


FRE 


SMO 基 本 原理 是 : 每 次 仅 选 择 两 个 元 素 共 同 优化 ， ERME 数 固定 的 前 提 下 ， 找 到 
fo 


这 两 个 参数 的 最 优 值 ， 并 更 新 祖 应 的 g 向 量 ， 而 这 两 个 点 乘 子 的 优化 可 以 获得 解析 解 


























8.5.3 ”算法 应 用 





SVM 算法 的 数学 原理 较 难 懂 ， 推 导 过 程 复杂 ， 掌握 SVM 算法 的 关键 在 于 动手 实践 。 
通过 编写 代码 ， 运 用 SVM 算 法 解决 机 器 学 习 问 题 才 能 真正 理解 它 。 mlpy 库 提供 了 SVM 算 
法 的 相关 函数 ， 本 节 将 以 mlpy 库 为 例 进行 前 述 ， ee 第 2 章 的 指导 安装 mlpy 库 。 

1. 核 函数 

mlpy 的 SVM 算法 库 提 供 以 下 核 函数 。 

线性 核 函 数 通 常 表现 为 直线 方程 ， 函 数 名 为 linear。 

非 线 性 核 函 数 如 下 : 

1) 多 项 式 函 数 ， 函 数 名 为 poly。 

2) 径 向 基 范 数 ， 函 数 名 为 rbf。 

3) sigmoid 函 数 ， 函 数 名 为 sigmoid。 

2. 线 性 分 类 
下 面 使 用 线性 核 作 为 SVM 的 核 函 数 ， 对 下 面 的 数据 进行 分 类 

















创建 SVM 类 的 实例 ， 并 使 用 leamn 方 法 训练 SVM。 





x=np.array(x) 
y=np.array(y) 

svm = mlpy.LibSvm() 
svm.learn(x, y) 








使 用 pred 方 法 对 未 知 数据 进 。 代 码 如 下 : 
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ty=svm.pred(tlp_x[ii] ) 





完整 的 Python 代码 如 下 ; 





#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#email:myhaspl@qq.com 
#author : ži 


#8-14.py 

import numpy as np 

import matplotlib.pyplot as plt 

import mlpy 

print ‘loading ...' 

x = [[1,8], [3,20], [1,15], [3,35], [5,35], [4,40], [7,80], [6, 49]] 
y=[1,1,0,0,1,0,0,1] 

showpoint=['ro','r*'] 

tshowpoint=['bo', 'b*'] 

x=np.array(x) 

y=np.array(y) 

svm = mlpy.LibSvm() 

svm.learn(x, y) 

lp_x1 = x[:,0] 

lp_x2 = x[:,1] 

xmin, xmax = np.min(lp_x1)-1, np.max(1p_x1)+1 
ymin, ymax = np.min(1p_x2)-1, np.max(lp_x2)+1 
plt.subplot(111) 

plt.xlabel(u"x" 

plt.xlim(xmin, xmax) 

plt.ylabel(u"y") 

plt.ylim(ymin, ymax) 

# 显 示 样 本 点 


for ii in xrange(0,len(x)): 
ty=svm. pred(x[ii]) 


if ty>0: 
plt.plot(lp_x1[ii], lp_x2[ii], showpoint[int(ty)]) 
else: 
plt.plot(lp_x1[ii], 1lp_x2[ii], showpoint[int(ty)]) 
# 未 知 样本 分 类 


tlp_x1=np.random. rand(50)*(xmax-xmin)+xmin 

tlp_x2=np.random. rand(50)*(ymax-ymin)+xmin 

tlp_x=np.array(zip(tlp_x1,tlp_x2)) 

for ii in xrange(0,len(tlp_x)): 
ty=svm.pred(tlp_x[ii]) 


if ty>0: 
plt.plot(tlp_x1[ii],tlp_x2[ii], tshowpoint[int(ty)]) 
else: 
plt.plot(tlp_x1[ii],tlp_x2[ii], tshowpoint[int(ty)]) 
plt.show() 





上 上 述 代 码 中 ， 随 机 生成 了 50 个 数据 作为 待 分 类 未 知 样本 。 如 图 8-30 所 示 是 程序 生成 
的 分 类 散 点 图 ， 实 心 贺 圈 和 星 号 分 别 代表 两 类 数据 。 运 行程 序 后 ， 将 出 现 图 8-30 的 彩 图 ， 
其 中 红色 的 是 样本 数据 ， 蓝 色 的 是 测试 数据 。 从 图 上 能 直观 看 到 ， 从 图 上 能 直观 看 到 ， 分 


4 


类 很 成 功 。 


洲 
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图 8-30 “分 类 散 点 


3. 非 线性 分 类 


非 线性 分 类 需要 选择 非 线性 核 函数 ， 这 里 选择 poly 作 为 SVM 的 核 函 数 。 尝 试 将 分 属 
于 下 面 两 个 函数 的 坐标 点 分 开 : 


第 一 类 : y=x^atb (a<=2, abs(b)<10) 
第 二 类 : y=x^atb (a>=3, abs(b)<10) 
1) 设置 样本 数据 。 代 码 如 下 : 


x= [[1,1],[2,4], [3,12], [9,70], [5,130], [4,13], [5,29], [5,135], [4,68], [10, 1900], [8,520], [7,340], 
[6,40], [19,150] ] 
y=[1,1,1,1,0,1,1,0,0,0,0,0,1,1] 








2) 设置 SVM 的 核 函数 ， 进 行 训 练 。 





X=np.array(x) 
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y=np.array(y) 
svm = mlpy.LibSvm(svm_type='c_svc', kernel_type='poly', gamma=10) 
svm.learn(x, y) 





3) 随机 产生 符 分 类 数据 ， 进 行 测 试 。 代 码 如 下 : 





tlp_x10=np. random. rand(100)*(xmax-xmin)+xmin 
tlp_x20=tlp_x10**3+np.random.rand(100)*20-10 

tlp_x11=np. random. rand(100)*(xmax-xmin)+xmin 
tlp_x21=tlp_x11**2+np. random. rand(100)*20-10 

tlp_x30=np. random. rand(50) * (xmax-xmin)+xmin 
tlp_x31=t1lp_x30**(round(np. random. rand()*6,0)+3)+np. random. rand(50)*10-5 
tlp_x40=np. random. rand(50) * (xmax-xmin)+xmin 
tlp_x41=t1lp_x30**(round(np. random. rand(),0)+1)+np. random. rand(50)*10-5 





如 图 8- 3 所 未 是 程序 生成 的 散 点 图 ， 实心 圆圈 
点 被 成 功 划 分 为 两 类 PEA Cath SL HIRI th SEES (UIE DIAS OSA, 其 余 
被 划分 到 第 1 类 。 
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图 8-31 分 类 散 点 图 
完整 的 Python 代 码 如 下 : 





#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#email:myhaspl@qq.com 
#author : ži 


#8-15.py 
import numpy as np 
import matplotlib.pyplot as plt 
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import mlpy 

print ‘loading ...' 

x = [[1,1], [2,4], [3,12], [9,70], [5,130], [4,13], [5,29], [5,135], [4,65], [10,1000], [8,520], [7,340], 
[6,40], [10,150] ] 
y=[1,1,1,1,0,1,1,0,0,0,0,0,1,1] 
showpoint=['ro','r*'] 

tshowpoint=['bo', 'b*'] 

x=np.array(x) 

y=np.array(y) 

svm = mlpy.LibSvm(svm_type='c_svc', kernel_type='poly', gamma=50) 
svm.learn(x, y) 

lp_x1 = x[:,0] 

lp_x2 = x[:,1] 

xmin, xmax = np.min(1p_x1)-0.5, np.max(lp_x1)+0.5 
ymin, ymax = np.min(1p_x2)-0.5, np.max(lp_x2)+0.5 
plt.subplot (111) 

plt.xlabel(u"x") 

plt.xlim(xmin, xmax) 

plt.ylabel(u"y") 

plt.ylim(ymin, ymax) 

# 显 示 样 本 点 


for ii in xrange(0,len(x)): 
ty=svm.pred(x[ii]) 


if ty>0: 
plt.plot(lp_x1[ii], 1lp_x2[ii], showpoint[int(ty)]) 
else: 
plt.plot(lp_x1[ii], 1lp_x2[ii], showpoint[int(ty)]) 
# 未 知 样本 分 类 


tlp_x10=np. random. rand(100)*(xmax-xmin)+xmin 
tlp_x20=tlp_x10**3+np.random.rand(100)*20-10 
tlp_x11=np. random. rand(100)*(xmax-xmin)+xmin 
tlp_x21=tlp_x11**2+np.random.rand(100)*20-10 
tlp_x30=np. random. rand(50)*(xmax-xmin)+xmin 
tlp_x31=tlp_x30**(round(np.random.rand()*6,0)+3)+np.random.rand(50)*10-5 
tlp_x40=np. random. rand(50)*(xmax-xmin)+xmin 
tlp_x41=tlp_x30**(round(np.random.rand(),0)+1)+np.random.rand(50)*10-5 
tlp_x1=tlp_x10.tolist()+tlp_x11.tolist()+tlp_x30.tolist()+tlp_x40.tolist() 
tlp_x2=tlp_x20.tolist()+tlp_x21.tolist()+tlp_x31.tolist()+tlp_x41.tolist() 
tlp_x=np.array(zip(tlp_x1, tlp_x2) ) 
for ii in xrange(0,len(tlp_x)): 

ty=svm.pred(tlp_x[ii]) 


if ty>0: 
plt.plot(tlp_x1[ii],tlp_x2[ii], tshowpoint[int(ty)]) 
else: 
plt.plot(tlp_x1[ii],tlp_x2[ii], tshowpoint[int(ty)]) 
plt. show() 





下 面 以 rbf 为 核 函 数 完成 螺旋 型 空间 下 的 分 类 。 代 码 如 下 : 





#!/usr/bin/env python 

#-*- coding: utf-8 -*- 

#8-16.py 

import numpy as np 

import matplotlib.pyplot as plt 

import mlpy 

f = np.loadtxt("spiral.data") 

x, y=f[:, :2], f[:, 2] 

svm = mlpy.LibSvm(svm_type='c_svc', kernel_type='rbf', gamma=100) 
svm.learn(x, y) 

xmin, xmax = x[:,0].min()-0.1, x[:,0].max()+0.1 

ymin, ymax = x[:,1].min()-0.1, x[:,1].max()+0.1 

Xx, yy = np.meshgrid(np.arange(xmin, xmax, 0.01), np.arange(ymin, ymax, 0.01)) 
xnew = np.c_[xx.ravel(), yy.ravel()] 

ynew = svm.pred(xnew) . reshape(xx.shape) 

fig = plt.figure(1) 

plt.pcolormesh(xx, yy, ynew) 

plt.scatter(x[:,0], x[:,1], c=y) 

plt.show() 
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如 图 8-32 所 示 为 分 类 的 效果 图 。 两 类 数据 被 螺旋 形 分 界线 划分 。 
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图 8-32 SVM 分 类 的 效果 图 
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8.6 回归 算法 

回归 分 析 是 统计 学 上 分 析 数 据 的 一 种 方法 ， a gs e AL IU 
关 ， 以 及 相关 的 方向 与 强度 ， Hse is 型 ， p dl 究 者 感 兴趣 的 
变量 ， 它 建立 了 因 变 量 与 自 变 量 之 间 的 3 


























8.6.1 线性 代数 基础 





线性 代数 是 数学 的 一 个 分 支 ， 它 的 研究 对 象 是 向 量 、 向 量 空 间 (或 称 线性 空间 ) 、 
j 量 空间 是 现代 数学 的 一 个 量 要 课题 ， 线性 代数 广泛 地 
EMRI eae 函 分 析 中 ， 并 能 通过 解析 几何 具体 表示 。 线 性 代数 在 机 器 学 习 理 论 体 
系 中 的 地 位 举足轻重 。 


1. 伴 随和 矩阵 


在 线性 代数 中 ， 二 个 方形 惩 阵 的 伴随 年 阵 是 一 个 关 似 于 逆 年 阵 的 概念。 如 果 矩 阵 可 
逆 ， 那 么 它 的 逆 矩 阵 和 它 的 伴随 矩阵 之 间 只 差 一 个 系数 。 


和 矩阵 A 的 伴随 矩阵 是 A 的 余子 矩阵 的 转 置 矩 阵 ， 具 体 定义 如 下 : 





A, Fj] 
pi 人 hm il OA tOpAirt +A nope 
bb 的 
BHAA*=A*A=|AIE 
其 中 ， 
Ay Ay eee Ant ) 
Ay Ay ve An 
eer | 
A*= (Aldi) 
Ån Ay dn sie / 





A*A A (A= A 


若 A 可 逆 ， 则 A 的 伴随 矩阵 14| 
2. 方 阵 的 行列 式 运算 

设 A、B 为 n 阶 方 阵 ， 则 |ABI=|AlIBI=IBIIAI=IBAI 

但 |AtB|=|A|+|B| 不 一 定 成 立 。 
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3. 矩 阵 与 方 阵 


di 412 «++ Ain 
di2 A22 +++ Ary 


mxn 个 数 aij 排 成 下 行 a 列 的 表格 Lem Amo è mn KHE, HWA, Waij )mxn 
。 若 m=n， 则 和 A enti een BE 


4. Fe BE ASE AS es 


设 A=(aij ), B=(by ) 是 两 个 mxn 和 矩阵 ， 则 mxn 和 矩阵 C=(cij )=aij +bij 称 为 矩阵 A 与 B 的 
和 ， 记 为 A+B=C。 


设 A=(aij ) 是 mxn 和 矩阵 ，k 是 一 个 单数 ， 则 mxn 和 矩阵 (kaij ) 称 为 数 k 与 矩阵 A 的 数 乘 ， 


设 A=(aij )xemxnfe fF, B=(bij ) 是 nxs 和 矩阵， 那么 mxs 和 矩阵 C=(cij )， 其 中 ， cij =ail b1j 
n 


>. airDy 
+ai2 b2j +...+ain bnj = A=1 称 为 A 与 B 的 乘积 ， 记 为 C=AB。 
5. 和 矩阵 的 秩 
n, r(A)=n 
r(A*)=4 1, r(A)=n-1 

若 A 为 n 阶 方 阵 ， 则 r(A*)= 0, r(4)<n-1 
6. 线 性 相关 与 线性 无 关 

Oy» AQ, no os 线性 相关 至 少 有 一 个 向 量 可 以 用 其 余 向 量 线性 表示 。 


Fals a2, no as PEL, af, a2; wr Og» rer = b 可 以 由 ol，w 
，.…，Qa. 唯一 线性 表示 。 


8.6.2 ”最 小 二 乘法 原理 





1. 范 数 
在 向 量 空间 Rn (Cn ) 中 ， 设 x=(xl ，xo ，...，xn )! ， 向 量 范 数 定义 如 下 : 
x 的 2- 范 数 或 欧 氏 范 数 计算 公式 为 : 

















A 
) 








= (bt H 





| X "Tn 
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X 的 1- 范 数 计 算 公 式 为 : 
[x [bet prt thy 
X 的 oo 范 数 或 最 大 范 数 计算 公式 为 ; 
[x= maxa 
X 的 p 范 数 计算 公式 为 : 
I apap 
A 的 行 范 数 计算 公式 如 下 : 


A 的 列 范 数 计 算 公 式 如 下 : 

















-me sca a, 

















smh | 








A 的 2- 范 数 或 谱 范 数 计算 公式 如 下 : 


EIS mf Nag (A 4) 


其 中 和 max (AT A) 为 AT A 的 最 大 特征 值 。 
2. 算 法 目标 
线性 回归 算法 通过 适合 的 参数 ， 使 函数 与 观测 值 之 差 的 平方 和 最 小 ， 即 : 


min ) (),,-J,) 
* isl 


1) 二 元 线性 回归 。 首 先 将 线性 回归 函数 定义 为 如 下 形式 : 
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y=xg +x1t 
根据 其 算法 目标 ， 得 到 下 式 : 


| 11 xy 
Min |}: is ,MII | yy,, 
E HGH ip [dx-b 


Xp} 








‘1 
á 


Lot Wal \Vh 


解 上 式 ， 得 到 如 下 形式 : 


+ 


Sy 


ry -ht 


= (oe 
Bs— > 
sp 用 i=1 。， 为 ( 值 的 算术 平均 值 。 

2) 多 元 线性 回归 。 将 多 个 不 相关 变量 tI ，.….，tq ， 组 成 下 面 线性 函数 : 
(ty > -> tq; X0 ，X1 ，.…，Xq )=x0 +X1 ty +...+Xq tq 


上 式 可 写成 Ax=b 的 形式 ， 如 下 所 示 : 
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| fi di lij gái ly Mp Vi 


w 4. a Xi 
L dy tt by ty yy 
， X i 
0 = 
| ta 5 lij ái ly , Yi 
4 
| 加 oe hj = 加 % Yn 


接着 求解 目标 函数 : 
nin iel AE CHEC 
ee en aoe ele ， 这 同时 也 是 2- 范 数 极 小 的 解 ， 其 通 解 为 特 解 加 


8.6.3 ”线性 回归 


cok 


节 讲 述 了 一 些 多 元 线性 pipes ena Ax=b 的 形式 ， 求 解 回 归 模型 就 是 求解 
Ne a 回归 的 过 程 。 根 据 最 小 二 乘 原理 及 相关 数学 


推导 ， 参 数 估计 值 为 : 
Bay NT 





= 


2. 一 元 线性 回归 
如 果 随 机 变量 y 与 变量 x 之 间 呈 现 某 种 线性 关系 ， 则 y 与 x 之 间 一 元 线性 回归 模型 为 : 











Eathx 


上 式 也 称 变量 y 对 变量 x 的 一 元 线性 回归 方程 ，a、b 称 为 回归 系数 。 
根据 前 面 讲述 的 最 小 二 乘法 原理 ， 用 Python 编码 实现 。 





#!/usr/bin/env python 

-* oding: utf-8 - 
#code:myhaspl@qq.com 
#8-17.py 
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import matplotlib.pyplot as plt 

x =[1,2,3,3,6,12,11] 

y =[3,5,8,5,12, 26, 20] 
average_x=float(sum(x))// len(x) 
average_y=float(sum(y) )/len(y) 
x_sub=map( (lambda x:x-average_x),X) 
y_sub=map( (lambda x:x-average_y),y) 
x_sub_pow2=map( (lambda x:x**2),x_sub) 
y_sub_pow2=map( (lambda x:x**2),y_sub) 
x_y=map( (lambda x,y:x*y),x_sub,y_sub) 
a=float(sum(x_y))/sum(x_sub_pow2) 
b=average_y-a*average_x 
plt.xlabel('X') 

plt.ylabel('Y') 

plt.plot(x, y, '*' 
plt.plot( [0,15], [O*at+b,15*a+b] ) 
plt.grid() 
plt.title("{0}*x+{1}".format(a,b) ) 
plt. show() 





如 图 8-33 所 示 为 程序 绘制 的 散 点 图 ， 这 些 数 据点 呈 明 显 的 线性 趋势 ， 程 序 将 它们 的 
线性 趋势 绘制 成 一 条 回归 线 ， 回 归 效 果 不 错 。 


1 .9087635054*x+1.7418967587 





图 8-33” 散 点 
3. 多 元 线性 回归 
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一 元 线性 回归 是 指 将 一 个 主要 影响 因素 作为 自 变量 ， 分 析 自 变量 的 变化 如 何 引起 因 
go ae ace ae Ley 的 变化 往往 受 几 个 重要 因素 的 影响 ， 此 时 就 需 
要 用 两 个 或 两 个 以 上 的 影响 因素 来 解释 因 变 量 的 变化 ， 这 就 是 多 元 回归 。 

SE 


设 y 为 因 变 量 ，x1 ，x2 ，...，xk 为 自 变 量 ， 并 且 自 变量 与 因 变 量 之 间 为 线性 关系 
时 ， 则 多 元 线性 回归 模型 为 : 


y=bo +b1 x1 +b2 x? +...+bk xk te 
根据 最 小 二 乘法 ， 使 用 Python 来 实现 这 个 回归 模型 。 代 码 如 下 : 


四 
it 
muen 



































#!/usr/bin/env python 

# -*- coding: utf-8 -*- 

#code:myhaspl@qq.com 

#8-18.py 

import numpy as np 

x =np.matrix([[7,2,3],[3,7,17],[11,3,5]], a hee np.float64) 
y =np.matrix([28, 40, 44], dtype= np. float64) .T 

b=(x. T*x) ， I*x.T*y 

print u" 参 数 项 矩阵 为 


{0}". format (b) 
cb= [] 
while i<3 
TE append(b[i, 0]) 


rip e= ayi x*b 

mye=temp_e.sum()/temp_e.size 

e=np. matrix([mye, mye,mye]).T 

print "y=%F*x1+%F*x2+%F*x3+%F"%(Cb[O],cb[1],cb[2],mye) 








上 述 代码 计算 了 参数 估计 值 ， 并 列 出 了 多 元 线性 回归 方程 。 





参数 项 矩阵 为 


[[ 3.] 
[ 2.] 
[ 1.] 


] 
y=3.000000*x1+2.000000*x2+1.000000*x3+-0.000000 





8.6.4 多 元 非 线性 回归 

















如 果 自 变量 X1 ，X2 ，...，Xm 与 因 变 量 Y 皆 具有 非 线性 关系 ， 或 者 有 的 为 非 线性 ， 


有 的 为 线性 ， 则 需要 选择 多 元 非 线 性 回归 模型 。 非 线性 回归 方程 很 难 求解 ， 通 常 把 非 线性 
回归 转化 为 线性 回归 ， 然 后 应 用 最 小 二 乘法 求解 。 


例如 ， 非 线性 回归 方程 模型 为 : 











首先 ， 进 行 变量 变换 。 
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经 过 变换 后 ， 将 其 化 为 线性 模型 。 
}=a+bX 
然后 ， 再 用 最 小 二 乘法 求 出 参数 的 估计 值 。 最 后 经 过 适当 的 变换 ， 得 到 所 求 回归 则 


1. 一 元 三 次 回归 模型 


一 元 三 次 回归 模 为 : 
pxbjtbyxtby thy 


用 Python 代码 实现 : 





#!/usr/bin/env python 

# -*- coding: utf-8 -*- 

#code:myhaspl@qq.com 

#8-19.py 

#y=b1* x+b2* (x42) +b3* (x3) 

import numpy as np 

import matplotlib.pyplot as plt 

z=np.matrix([3,1.4,1.9]).T 

myx =np.matrix([[7], [3], [9]],dtype=np.float64) 

x = np.matrix([[myx[0,0],myx[0,0]**2,myx[0,0]**3],\ 
[myx[1,0],myx[1,0]**2,myx[1,0]**3],\ 
[myx[2,0],myx[2,0]**2,myx[2,0]**3]],\ 
dtype=np. float64) 

y =x*z 

b=(x.T*xX).1*x.T*y 

print U" 参 数 项 矩阵 为 


{0}".format(b) 
i=0 


cb=[] 
while 
eee Lappend(p[i， 0]) 


beng e= ae x*b 

mye=temp_e.sum()/temp_e.size 
e=np.matrix([mye,mye,mye]).T 

print "y=%f*x+%f*x^2+%f*x^3+%f"%(cb[0],cb[1],cb[2], mye) 
pltx=np.linspace(0, 10,1000) 
plty=cb[0]*pltx+cb[1]*(pltx**2)+cb[2]*(pltx**3)+mye 
plt.plot(myx,y,"*") 

plt.plot(pltx, plty) 

plt. show() 








程序 运行 后 ， 计 算 参 数 估 计 值 以 及 最 终 的 回归 方程 。 
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参数 项 矩阵 为 

[[ 3. ] 

[ 1.4] 
1 


[ 1.9]] 
y=3 . 000000*x+1 . 400000*x^2+1 . 900000*x^3+0 . 000000 





非 线 性 回归 方程 表现 为 曲线 ， 如 图 8-34 所 示 是 上 述 代码 生成 的 回归 曲线 。 
2 300 


2 000 i 
1 500 
1 000 


500 


0 p 4 6 8 10 


图 8-34 回归 曲线 
2. 二 元 二 次 多 项 式 回归 方程 
二 元 二 次 多 项 式 回 归 方 程 为 : 
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A ) 1 
Vat Dy thy ast bit bt bi 
A bi=by bba, bbn, bbn bb 


9 ) 
M3=X1 NN "A 


这 样 上 式 即 可 化 为 以 下 五 元 一 次 线性 回归 方程 : 


pathy thax thst HO atbex 5 


根据 推导 结果 来 看 ， 可 以 按 多 元 线性 回归 方法 计算 各 偏 回 归 系 数 ， 建 并 二 元 二 次 多 
项 式 回 归 方 程 。 


下 面 用 Python 求 解 二 元 二 次 多 项 式 回 归 方 程 。 











#!/usr/bin/env python 

# -*- coding: utf-8 -*- 

#code:myhaspl@qq.com 

#8-20.py 

#y=b1* x1+b2* (x2A2)+b3*x1*x2 

import numpy as np 

z=np.matrix([3,1.4,1.9]).T 

myx =np.matrix([[7,3], [3,17], [11,5]],dtype=np.float64) 

x = np.matrix([[myx[0,0],myx[0,1]**2,myx[0,0]*myx[0,1]], 
[myx[1,0],myx[1,1]**2,myx[1, 0] *myx[1,1]], 
[myx[2,0],myx[2,1]**2,myx[2,0]*myx[2,1]]] 
dtype=np.float64) 


\ 
\ 
aN 
y =x*z 

b=(x.T*x).I*x.T*y 

print U" 参 数 项 矩阵 为 


{0}".format(b) 
i=0 
cb=[] 
while i<3: 
cb.append(b[i, 0] ) 
i+=1 
temp_e=y-x*b 
mye=temp_e.sum()/temp_e.size 
e=np.matrix([mye,mye,mye]).T 
print "y=%f*x1+%f*x2^2+%f*x1*x2+%f"%(cb[0],cb[1],cb[2], mye) 





程序 计算 回归 方程 的 参数 后 ， 列 出 回归 方程 ， 如 下 所 示 : 





参数 项 矩阵 为 


] 


[[ 3. 
[ 1.4] 
A 


9]] 
y=3.000000*x1+1.400000*x2^2+1.900000*x1*x2+-0.000000 
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8.6.5 IWATE 


只 有 正方 形 Cnxn) 的 矩阵 《〈 也 称 为 方 阵 ) ， 才 可 外 E 有 但 非 必 然 有 逆 甜 隆 。 HN BEA 
NUMA, 则 称 A 为 非 奇异 方 阵 或 可 逆 方 阵 。 回 顾 一 下 参数 项 的 求解 公式 : 


B= NT 


O ZEM ETA at Sa PE BE 7 PE BE NE BE, BU LES 
逆 和 矩阵 不 存在 了 ， 怎 样 求解 参数 项 呢 ? 

此 外 ， 某 些 自 变量 之 间 可 生 存在 共 线性 ， 这 也 给 求 逆 带 来 了 麻烦 。 ga 
解决 这 个 问题 ， 它 是 一 种 专用 于 共 线 性 数据 分 析 的 有 偏 估计 回归 方法 ， 实质 上 一 种 改 
良 的 最 小 二 乘 估计 法 ， 是 通过 放弃 最 小 二 PA MEIR Ra cea RL 降低 精度 为 代 
价 ， ane ee 守 合 实际 、 更 可 靠 的 回归 方法 ， 对 病态 :数据 的 耐 受 性 远 远 强 于 最 小 
二 乘法 。 其 基本 原理 是 

给 参数 项 求解 公 ee 则 X'X+kI 接 近 奇 异 的 程 
度 较 小 ， 如 果 X 久 +kI 可 道 ， 则 参数 的 求解 公式 变 为 : 


POUN XT 





























ES 
ce 


























其 中 k 称 ， Peli BL. B coterponyestatemy- R fa -4k=Ol, iel 
Hfi aie a 通 的 最 小 二 乘 估计 。 因 为 岭 参 数 k 不 是 唯一 确定 的 ， 所 以 得 到 的 岭 回归 估计 








B (k) 实 际 是 对 回归 参数 B 的 估计 值 。 
选择 一 个 适合 的 岭 参 数 很 重要 ， 上 岭 迹 法 是 方法 之 一 。 选 择 的 原则 是 : 
各 回归 系数 的 岭 估计 基本 稳定 。 
“系数 符号 变 得 合理 。 
' 残 差 平 方 和 。 
' 取 使 方程 基本 稳定 的 最 小 K 值 。 

















8.6.6 ÉNE 











除了 岭 回 归 方 法 ， 伪 逆 方 法 也 是 一 种 不 错 的 方法 ， 它 是 对 逆 阵 的 推广 。 一 般 所 说 的 
伪 逆 是 指 MoorePenrose 伪 逆 ， 它 是 由 E.H.Moore 和 Roger pee 别 独立 提出 的 。 


一 个 与 A 的 转 置 矩 阵 AT 同型 的 矩阵 X， 满 足 ，AXA=A，XAX=X。 此 时 ， 称 和 矩阵 又 为 
矩阵 A 的 伪 道 ， 也 称 为 广义 逆 和 矩阵 。 


nu ee v0， 可 调用 numpy 的 这 个 方法 对 一 组 数据 进行 回 
归 分 析 ， 这 组 数据 不 适合 用 前 面 介 DEA 性 回归 算法 计 TA, 代码 如 下 : 








#!/usr/bin/env python 
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# -*- coding: utf-8 -*- 

#code:myhaspl@qq.com 

#8-21.py 

#y=b1* x1+b2*x2+b3* (x142)+b4* (x242)+b5*x1*x2 

import numpy as np 

z=np.matrix([1.4,1.9,1.7,0.8,1.1]).T 

myx =np.matrix([[7,3],[3,17], [11,5]],dtype=np.float64) 

x = np.matrix([[myx[0,0],myx[0,1],myx[0,0]**2,myx[0,1]**2,myx[0,0]*myx[0,1]] 
[myx[1,0],myx[1,1],myx[1,0]**2,myx[1,1]**2,myx[1, 0]*myx[1,1]] 
[myx[2,0],myx[2,1],myx[2,0]**2,myx[2,1]**2,myx[2,0]*myx[2,1]] 
dtype=np.float64) 


N 
) 
],\ 
y =x*z 

wn=np.linalg.pinv(x.T*x) 

b=wn*x.T*y 

print u" 参 数 项 矩阵 为 


{0}".format(b) 
i=0 
cb=[] 
while i<5: 
cb.append(b[i, 0] ) 
it=1 
temp_e=y-x*b 
mye=temp_e.sum()/temp_e.size 
e=np.matrix([mye,mye,mye]).T 
print "y=%F*x1+%F*x2+%F* (xX1A2)+%F* (X2A2) +%F*X1*xX24+%F"%(Cb[O],cb[1],cb[2],cb[3],cb[4],mye) 





程序 运行 后 ， 输 出 的 参数 矩阵 及 回归 方程 如 下 : 





1.59659657] 
@.69002152] 
2.01029166] 
0.9820693 ] 
0.4052783 ]] 
y=1.596597*x1+0 .690022*x2+2.010292* (x1A2)+0.982069* (x242)+0.405278*x1*x2+-0.000000 


aM 
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8.7 PCA 降 维 


主要 用 于 数据 降 维 。 由 一 系列 特征 组 成 的 多 维 向 量 ， 其 中 某 些 元 素 本 身 没 有 区 
分 性 ， RNE ENE ORRA, REKE EER, 那么 这 个 元 素 本 身 就 没 
有 区 分 性 ， 如 果 用 它 做 特征 来 区 分 ， 贡 献 会 非常 小 。 我 们 的 目的 是 找到 那些 变化 大 的 元 
素 ， 即 方差 大 的 维 ， 而 去 除 掉 那 些 变 化 不 大 的 维 。 


,使 用 PCA 的 好 处 在 于 ， 可 以 对 新 求 出 的 “ 主 元 "向量 的 重要 性 进行 排序 。 根 据 需 要 取 
前 面 最 重要 的 部 分 ， 将 后 面 的 维 数 省 去 ， 从 而 达到 降 维 、 fa LUMO a RET T 
J. FINALE MLE A SORIA, BRIAR CERO BTID, 在 数据 较 
多 的 情况 带 来 的 性 能 提高 更 明显 。 


PCA 通 过 将 主 成 分 分 析 的 问题 转化 为 求解 协 方差 矩阵 的 特征 值 和 特征 向 量 来 计算 。 
k 目 标 是 寻找 rtr<n) 个 新 变量 ， 使 它们 扩 遇 事物 的 主要 特征 ， 压缩 原 有 数据 邱 阵 的 规模 ， 

每 个 新 变量 是 诛 有 变量 的 线性 组 合 ， 体 现 原 有 变量 的 综合 效果 ， 这 r 个 新 变量 称 为 “ 主 成 
全 们 可 以 在 很 大 程度 上 反映 原来" 个 变量 的 影响 并 且 这 些 新 变量 是 互 不 相关 的 ， 也 
父 


以 将 数据 的 维 数 从 N 降 到 5 为 例 ，PCA 算 法 过 程 如 下 : 

1) 计算 样本 矩阵 X 协 方差 矩阵 。 

2) 计算 协 方差 矩阵 S$ 的 特征 向 量 el ，e2 ，...，eN 及 其 特征 值 =1，2，...，N。 
3) 把 特征 值 按 从 大 到 小 排序 ， 取 前 5 位 特征 值 对 应 的 特征 同 量 组 成 投影 算 阵 W，。 
4) 投影 数据 到 W 组 成 的 空间 之 中 。 


上 述 算法 过 程 较 抽象 ， 理 解 它 的 最 好 方式 就 是 动手 实现 它 。 下 面 编写 一 段 Python 程 
使 用 mlpy 库 提供 的 PCA 类 ， 实 现 PCA 算 法 。 
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# 





#!/usr/bin/env python 

# -*- coding: utf-8 -*- 

#code:myhaspl@qq.com 

#8-22.py 

import numpy as n 

import matplotlib.pyplot as plt 

import mlpy 

np.random.seed(0) 

mean, cov, n = [0, 0], [[1,1],[1,1.5]], 100 

x = np.random.multivariate_normal(mean, cov, n) 
pca = mlpy.PCA() 

pca.learn(x) 

coeff = pca.coeff() 

fig = plt.figure(1) 

ploti = plt.plot(x[:, ©], x[:, 1], 'o') 

plot2 = plt.plot([0, coeff [0, əl], [0, coeff[1, 0]], linewidth=4, color='r') 
plot3 = = plt. plot lo, coeff[0, 1]], [0, coeff[1, 1]], linewidth=4, color='g') 
xx = plt.xlim(-4, 4) 

yy = plt.ylim(-4, 4) 

z = pca.transform(x, k=1) 

xnew = pca.transform_inv(z) 

fig2 = plt.figure(2) 

plot1 = plt.plot(xnew[:, 0], xnew[:, 1], 'o') 
xx = plt.xlim(-4, 4) 

yy = plt.ylim(-4, 4) 








plt.show() 
如 图 8-35 所 示 是 程序 生成 的 两 张 散 点 图 ， 左 边 是 数据 降 维 前 的 效果 ， 右 边 是 数据 降 
a eee 数据 的 球体 趋势 并 没有 改变 ， 最 大 程度 地 保持 了 原 
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图 8-35 ”数据 降 维 
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8.8 关联 规则 
8.8.1 关联 规则 概述 
A Suniel ae 分 析 ， 然后 又 购买 了 C 




















商品 ， 也 就 是 说 出 Ree a m{A, B, C}, 则 可 把 {A，B }、 }、{A，B， C} 称 为 项 
集 do uU 可 以 建立 一 条 规则 ， EE A BIBER ERR LAAT HES SEC 
id, WA{A, B iC). a E TE AL Reo LT TG A 可 








将 这 AE A A E 


E 事务 t 由 若干 个 项 集 组 成 ， 事 务 集 T 由 若干 个 事务 t 组 成 ， 设 
项 集 X 是 事务 tt ET 的 一 个 子 集 ， 也 可 记 为 x<Et; ， 分 析 事 务 集 ， 在 指定 支持 度 和 置信 度 满 
足 的 情况 下 ， i 为 规则 X- >Y 成 立 (X 和 Y 均 为 项 集 ) ， 则 称 X 为 前 件 ，Y 为 后 件 。 


支持 度 的 计算 公式 如 下 : 











FER -Teagrurygap -U 


N 
其 中 n 为 事务 集 T 的 事务 数量 ，count 表 示 数 量 。 
置信 度 的 计算 公式 如 下 : 


置信 度 =7 中 包括 LU 了 的 百分比 = 








count(X U T) 
count(X) 


其 中 count 表 示 数 量 。 

置信 度 可 理解 为 条 件 概率 ， 即 : 在 事务 集中 ，X 项 集 存在 的 前 提 下 ， 项 集 Y 存 在 的 可 
能 性 ， 支 持 度 可 理解 为 事务 集 T 中 X 和 Y 项 集 同时 存在 的 概率 。 可 给 支持 度 和 置信 和 度 设 置 
一 个 赋值 ， 若 这 两 个 指标 均 大 于 这 个 浆 值 ， 则 可 生成 关联 规则 。 














8.8.2 ”频繁 项 集 算法 


1.Apriori 算 法 


riori 算 法 是 一 种 挖 所 布尔 关联 规则 频繁 项 集 的 算法 ， 其 核心 是 基于 两 阶段 频 集 因 
MORE CANAN ATRE E WA PALEE OE 
EEDA IIORIUR, RAA. TW ALAR ANE, BATE 




















1) fd RUAA ee 人 元素 的 项 集 出 现 的 频数 ， 并 找 出 那些 不 小 于 最 小 支持 度 的 
项 集 ， 即 一 维 最 大 项 集 。 

2) 继续 循环 处 理 直 到 再 没有 最 大 项 集 生成 为 止 。 循 环 过 程 是 ， 第 k 步 中 ， 根 据 第 kr1 
步 生 成 的 k- 1 维 最 天 项 集 产 生 k 维 侯 选 贫 集 ， 然后 对 数据 库 进 行 搜索 ， 得 到 侯 选 项 集 的 项 集 
支持 度 ， 并 与 最 小 文 持 度 进 行 比较 ， 从 而 找到 k 维 最 大 项 集 。 
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下 面 以 一 个 例子 来 直观 说 明 算 法 的 过 程 。 假 设 有 一 个 数据 库 表 sales， 其 中 有 4 个 购买 
事务 ， 如 图 8-36 所 示 。 


1) 将 最 小 支持 度 Minsup 设 定 为 2， 算 法 的 运行 过 程 如 图 8-37 所 示 。 


mo a 
a | 





| a | 11.12.13.15 
es 
18-36 ”数据 库 表 sales 的 购买 事务 





[es 


图 8-37 ”Apriori 算 法 过 程 ， 设 定 最 小 支持 度 
2) 扫描 上 述 sales 表 ， 对 每 个 候选 项 进行 支持 度 计 数 ， 得 到 表 C1， 如 图 8-38 所 示 。 
3) 比较 候选 项 支持 度 计数 与 最 小 支持 度 Minsup， 产 生 1 维 最 大 项 集 L1， 如 图 8-39 所 











wawai bbt .cam DEE ATCHHE 


























一 二 二 支持 度 计数 





图 8-39 Apriori 算 法 过 程 : 产生 1 维 最 大 项 集 
4) 由 LI 产生 候选 项 集 C2， 如 图 8-40 所 示 。 
5) 扫描 sales 表 ， 对 每 个 候选 项 集 进行 支持 度 计 数 ， 如 图 8-41 所 示 。 
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图 8-41 Apriori 算 法 过 程 : 2 维 候选 项 集 文 持 度 计 数 


6) 比较 候选 项 支持 度 计数 与 最 小 支持 度 Minsup， 产 生 2 维 最 大 项 集 L2， 如 图 8-42 所 
外。 
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图 8-42 ”Apriori 算 法 过 程 : 产生 2 维 最 大 项 集 
7) 由 L2 产 生 候选 项 集 C3， 如 图 8-43 所 示 。 








图 8-43 ”Apriori 算 法 过 程 ， 产生 3 维 候选 项 集 
O e 比较 候选 项 支持 度 计数 与 最 小 文 持 度 Minsup， 产 生 3 维 最 大 项 集 L3， 如 图 8-44 所 


EC 





ET | ， 


图 8-44 Apriori 算 法 过 程 : 产生 3 维 最 大 项 集 
9) 至 此 ， 算 法 终止 。 
Apriori 算 法 的 主要 缺点 如 下 : 
每 一 步 都 要 产生 候选 项 集 ， 循 环 产生 的 组 合 a. 没有 排除 不 应 该 参与 组 合 的 元 











.每 
素 ， 组 合 随 着 数据 库 记 录 的 增加 呈现 出 斤 何 级 数 的 增 


.每 次 计算 项 集 的 文 持 度 时 ， 都 对 事务 集中 的 全 部 记录 进行 了 一 遍 扫 描 ， 从 而 增加 了 
计算 机 系统 的 VO 开销 。 


2.FP-growth 算 法 


针对 Apriori 算 法 的 性 外 瓶颈 问 是 题 一 需要 产生 大 量 的 候选 项 集 和 重复 地 扫描 数据 _ 
库 ，2000 年 Jiawei Han A PE T TEPLE RIEMER. rowth 算 法 。 该 算法 只 需要 
fT P OC es Ta a AR EER = 最 后 通 
过 这 棵 树 生成 关联 规则 。 研 究 表 明 它 比 Apriori 算 法 大 约 快 一 个 数量 级 


FP-growth 算 法 是 一 种 不 产生 候选 模式 而 采用 频繁 模式 增长 的 方法 挖掘 频繁 模式 的 算 
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法 。 算 法 只 需要 两 次 数据 扫描 ; 
第 一 次 扫描 数据 库 ， 得 到 1 维 频 楷 项 集 。 
第 二 次 扫描 数据 库 ， 利 用 1 维 频繁 项 集 过 滤 数 据 库 中 的 非 频 繁 项 ， 同 时 生成 FP 树 。 














E CEE 其 后 频繁 项 集 的 挖掘 只 需要 在 FP 树 上 进行 即 可 。 





FP 树 挖掘 由 以 下 两 个 阶段 组 成 
第 一 阶段 建立 FP 树 ， 即 将 数据 库 中 的 事务 构造 成 一 棵 FP 树 。 
二 阶段 为 挖掘 FP 树 ， 即 针对 FP 树 挖掘 频繁 模式 和 关联 规则 。 
FP-growth 算 法 可 具体 描述 如 下 : 
-输入 : 事务 数据 集 D， 最 小 文 持 度 Minsup。 
输出， 频繁 模式 的 完全 集 。 
具体 方法 如 下 。 
首先 ， 按 如 下 方法 构建 FP 树 。 














) 扫 朱 事务 数据 库 ， 收集 频繁 项 集 F 并 统计 支持 度 ， 对 F 按 支持 度 降序 排序 ， 得 到 频 

















ZHE EIR WL 





2) 创建 FP 树 的 根 节 点 ， 用 “null* 标 记 它 。 en a 选择 T 中 的 
AD, 并 按 工 中 的 顺序 排序 。 设 排序 后 人 其 中 p 是 第 一 个 元 素 ， 而 P 是 


剩余 元 素 的 表 。 调 用 insert_tree([p|P]， 该 过 程 执行 4 
人 itemName=p.itemName， 则 人 的 计数 增加 1;， 否则 创建 一 个 新 














He 


W 


点 N， 将 其 计数 设置 为 1， 链 接 到 它 的 父 节 点 IT， 并且 通过 节点 链 结构 将 其 链接 到 具有 相同 


itemNamz 的 节点 。 如 果 了 P 非 空 ， 则 递归 地 调用 insert_tree(P，N)。 


其 次 ， 通 过 FP-growth(Tree，o 函 数 来 实现 FP 树 的 规则 ， 初 始 调用 FP-growth(Tree， 
null)) 的 描述 如 下 : 




















if Tree 含 单个 路 径 





P then { 
for 路 径 


P 中 节点 的 每 个 组 合 








( 记 作 PB 


) 











产生 模式 BUa， 其 支持 度 为 














support=B 中 节点 的 最 小 支持 度 


} 
else for each a 
i 在 


Tree 的 头 部 
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do {产生 模式 B 


,其 支持 度 为 


support=a 


i .support ;构造 B 的 条 件 模式 


r 然后 构造 B 的 条 件 


FP 村 


Treep 





/ 
if Treepz 空 集 


then 
调用 


FP_growth(Treep 


end 





8.8.3 ”关联 规则 生成 


1. 关 联 规则 生成 算法 

设 {为 一 个 频繁 项 集 ，a 为 后 件 ，f-a 为 前 件 ， 可 将 f-a) ->a 设 为 一 条 关联 规则 。 如 果 
(f-a) 是 关联 规则 ， 则 (f-asyb ) 一 asub 也 是 关联 规则 ， asub 为 a 的 某 个 非 空 子 集 ， 所 有 
以 asub “为 后 件 的 规则 都 成 为 候选 关联 规则 ， 候 选 关联 规则 在 文 持 度 和 置信 度 都 大 于 指定 
BEIT, HÆRRI. 


支持 度 的 计算 方式 如 下 : 
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其 中 ，n 为 事务 集中 事务 的 数量 。 
置信 度 的 计算 方式 如 下 : 


count( f) 


count( f-a) 

i 当 文 持 度 conf> 最 小 支持 度 minconf、 置 信 度 sup> 最 小 置信 度 minsup 时 ， 可 生成 如 下 规 
WI: 

(f-a)->a 

产生 频繁 项 集 后 ， 就 可 计算 关联 规则 了 ， 具 体 算法 可 采用 如 下 方式 。 

第 一 步 ， 从 频 党 项 集 {f 中 生成 1 项 后 件 的 候选 关联 规则 ， 并 从 中 挑选 conf>minconf 和 
sup>minsup 的 候选 规则 作为 关联 规则 。 

第 二 步 ， 利 用 现 有 k-1 项 后 件 的 关联 规则 ， 生 成 k 项 后 件 的 候选 关联 规则 ， 从 中 挑选 
conf>minconf 和 sup>minsup 的 候选 规则 作为 关联 规则 。 
2. 关 联 规则 生成 例子 

下 面 以 图 8-36 所 示 的 sales 数 据 表 中 的 频繁 项 集 为 例 ， 讲 解 如 何 使 用 最 大 频繁 项 集 L3 
oe 设 定 minconf 为 60%，minsup 为 70%， 在 此 仅 分 析 一 次 频繁 项 集 L3， 如 图 8- 
45 所 不 。 








m 支持 度 计数 





图 8-45 ”频繁 项 集 L3 
首先 ， 从 1 项 后 件 的 候选 关联 规则 开始 。 根 据 L3 生 成 以 下 候选 关联 规则 : 
(1) {I2, I3}->{I5} [sup=2/4，conf=2/2] 
(2) {I2, I5}->{I3} [sup=2/4，conf=2/3] 
(3) {13, I5}->{I2} [sup=2/4，conf=2/2] 
根据 minconf 和 minsup 的 限制 ， 选 择 规则 (2)〉 作 为 生成 规则 H1， 如 下 所 示 。 
{12, I5}->{I3} 
然后 ， 根 据 H1， 生 成 2 项 后 件 候选 关联 规则 ， 如 下 所 示 。 
{I2}->{13, 15} [sup=2/4, conf=2/3] 
上 述 候选 关联 规则 满足 minconf 和 minsup 的 要 求 ， 因 此 将 它 作为 生成 规则 H2。 
最 后 ， 根 据 频繁 项 集 L3 生 成 以 下 两 条 关联 规则 : 
H1:{I2，I5}->{I3} 
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H2:{I2}->{I3，I5} 
8.8.4 实例 分 析 
下 面 以 分 析 购 买 记录 为 例 ， 分 别 就 Apriori 算 法 和 FP-growth 算 法 讲解 频繁 项 集 和 关联 
规则 。 
1.Apriori 算 法 
假设 某 超级 市 场 的 小 吃 和 饮料 信息 如 表 8-1 所 示 。 
表 8-1 超级 市 场 的 小 吃 和 饮料 清单 
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‘Chocolate’ 
‘Lemon! 
‘Casino’ 
‘Opera’ 
‘Strawberry’ 
Truffle’ 
Chocolate’ 
'Coffee' 
‘Vanilla’ 
‘Napoleon’ 
‘Almond! 
‘Apple’ 
‘Apple’ 
‘Apricot! 


‘Vanilla! 
‘Cherry! 


‘Single’ 


Cake’ 
‘Cake! 
Cake’ 
‘Cake! 
Cake’ 
‘Cake! 
Eclair 


'Eclair 
'Eclair' 
'Cake' 
Tart 
Pie’ 
Tart 
Tart 


'Frappuccino' 
'Soda' 





'Espresso' 





1.29 
1,85 





表 8-1 的 第 1 列表 示 食 品 编号 ID， 之 后 的 列 依次 是 口味 、 品 种 、 价 格 、 类 别 。 


商品 购买 记录 如 表 8-2 所 示 。 
表 8-2 
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小 吃 和 饮料 的 购买 记录 





表 8-2 中 第 一 列 为 订单 编号 ID， 以 后 各 列 依次 为 每 个 订单 所 点 的 食品 ID。 比 如 第 一 个 


订单 的 记录 为 "1，7，15，44，49”， 表 示 订 单 1 购 买 
Bottled Water 和 Single Espresso。 


了 Coffeekclair、a Blackberry Tart. 


首先 ， 下 载 Apriori 程 序 包 并 解压 。 本 书 源 码 包 中 附带 了 apriori.py 程 序 以 及 相关 数 
据 ， 也 可 以 直接 去 github.com 下 载 : https://github.com/BastinRobin/apriori-python 。 本 书 源 


码 包 的 下 载 地 址 见 前 言 。 


eI Th: 


然后 ， 打 开 命令 行 ， 以 最 小 支持 度 3% 及 最 小 置信 度 70% 为 标准 ， 分 析 顾 客 的 食品 消 





python apriori.py data/1000/1000-out1.csv .03 .7 
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了 结果 如 下 : 





Dataset: data/1000/1000-out1.cs 


MinSup: 0. 


03 MinConf: 


1 Berry Tart (14), 

2 Strawberry Cake (4), 

3 Chocolate Cake (0), 
4: Raspberry Cookie (23), 
5: Marzipan Cookie (27), 
6: Blueberry Tart (16), 

7 Blueberry Tart (16), 

8 Gongolais Cookie (22), 
9 Cherry Tart (18), 


Cheese Croissant (33), 
11 Raspberry Cookie (23), 
12 Lemon Cookie (24), 
13 Apricot Croissant (32), 


support= 0.032 
14: Apple Croissant (31), 


„Skyline Itemsets: 14 


Rule 1 Apricot Croissant (32), 
berry Tart (16) 

Rule 2 : Apple Croissant (31), 
--> Cherry Soda (48) 

Rule 3 : Apple Croissant (31), 
--> Apple Tart (12) 

Rule 4 : Apple Tart (12) 


d 
--> Apple Croissant (31) 


Bottled Water (44) 
Napoleon Cake (9) 
Casino Cake (2) 
Lemon Lemonade (40) 
Tuile Cookie (28) 
Apricot Croissant (32) 
Hot Coffee (45) 
Truffle Cake (5) 
Opera Cake (3) 
Orange Juice (42) 
Lemon Cookie (24) 
Lemon Lemonade (40) 
Hot Coffee (45), 


Apple Tart (12), 
Cherry Soda (48) 


Hot Coffee (45) 

[sup= 0.032 

Apple Tart (12), 
[sup= 0.031 

Apple Danish (36), 
[sup= 0.031 

Apple Danish (36), 
[sup= 0.031 


7 
support= 0.034 
support= 0.049 
support= 0.04 
support= 0.031 
support= 0.053 
support= 0.04 
support= 0.033 
support= 0.058 
support= 0.041 
support= 0.038 
support= 0.033 
support= 0.031 

Blueberry Tart (16) 
Apple Danish (36), 

support= 0.031 

--> Blue 

conf= 1.0 ] 


Apple Danish (36) 
conf= 0.775 ] 
Cherry Soda (48) 


conf= 1.0 ] 
E Soda (48) 
conf= 1.0 ] 





程序 的 上 半 部 分 为 频繁 项 集 ， 下 半 部 分 为 关联 规则 。 
第 1 个 频繁 项 集 表 明 ID 号 为 14 的 Berry 





首先 ， 观 察 这 14 个 频繁 项 集 ， 





为 44 的 Bottled Water 被 顾客 一 EWE (有 0.034 的 支持 度 ) ， 


频繁 项 集 ， 即 : 
购买 的 。 


然后 ， 观 察 关 联 规则 ， 
般 会 


消费 习惯 。 





y r i 


Apple Danish 的 顾客 会 选择 Cherry Soda, SONI 费 习惯 





2.FP-growth 算 法 














Apps Croissant. 


会 成 为 这 部 分 顾客 





而 拥有 最 大 支持 度 的 是 第 8 个 











Gongolais Cookie 和 Truffle Cake 是 所 抽 客 相对 其 他 食品 组 从 而 言 最 音 Sik 





第 1 条 关联 规则 是 点 二 Apricot Croissant 和 Hot Coffee 的 顾客 一 
来 上 一 个 Blue berry Tart, a ey a elit 0， 说 明 顾 客 常 有 该 规则 表明 的 
而 置信 度 最 小 〈 为 77.5%) 的 是 第 2 





ple Tart% 
aan i 














首先 ， 下 载 FP-growth 程 序 包 并 解压 ， 本 书 源码 包 中 提供 有 该 程序 包 ， ao 


github. com F 3X: 
命令 如 下 : 


https://github.com/enaeseth/python-fp-growth 


。 该 算法 包 需 要 





python setup.py install 











然后 ， 可 直接 运行 程序 fp_growth， 该 程序 将 自动 分 析 其 中 的 一 


tsk.csv， 生 成 频繁 项 集 。 


tsk 数 据 集中 的 数据 如 表 8-3 所 示 。 
表 8-3 
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tsk 数 据 集 





“EE A CPE 
































个 简单 的 数据 集 


a 
b 


运行 程序 的 命令 如 下 : 


ba) 
Qu 





python -m fp_growth -s 4 examples/tsk.csv 





程序 运行 完毕 后 ， 输 出 支持 数 supportz4 的 频繁 项 集 ， 结 果 如 下 : 








fp_growth 程 序 的 调用 格式 如 下 : 





python -m fp_growth -s {minimum support} {path to CSV file} 





其 中 ，minimum support 为 最 小 支持 度 ，path to CSV file 为 数据 集 的 csv 文 件 名 。 


最后， 以 某 网 上 商场 的 购买 数据 sales.csv( 共 1000 条 记录 ， 本 书 附 带 的 源码 包 中 提供 
了 该 文件 ) 为 例 ， 计 算 支 持 数 (支持 数量 ) >200 的 频繁 项 集 。sales.csv 文 件 共有 1000 条 记 
录 ， 记 载 了 每 笔 订 单 的 商品 了 号 ， 内 容 如 下 所 示 。 





2,5,27,29 
15, 27,31, 33 
9,16, 22, 
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12,14,16, 
2,9,44, 
9,26, 39, 
10,31,, 
1,47,49, 
12,14,16, 
12,14,16, 
1,19, 25,49 
15, 23,36, 
15,17, 36, 
15,18, 36, 37 
1,46, 48,49 


12,14,15,16 
2,24,47, 

9, 22,23, 

3,15, 21,47 
21,32, 41, 48...... 





编写 程序 8-23.py， 调 用 fp_growth 程 序 库 函 数 ， 代 码 如 下 : 





# -*- coding: utf-8 -*- 

#code :myhaspl@myhaspl.com 

#8-23.py 

from fp_growth import find_frequent_itemsets 
import csv 

myminsup=200# 设 定 最 小 支持 度 





if name__ == ' main__': 
f = open("sales.csv") 
try: 
for itemset, support in find_frequent_itemsets(csv.reader(f), myminsup, True): 
print '{' + ','.join(itemset) + '} ' + str(support) 
finally: 
f.close() 





运行 程序 ， 输 出 支持 数 >200 的 频繁 项 集 ， 结 果 如 下 所 示 : 


{9} 224 

{12} 300 

{14} 291 
{12,14} 266 
{22} 203 

{16} 274 
{12,16} 250 
{14,16} 249 
{12,14,16} 248 








分 析 上 面 的 频繁 项 集 ，{12}300 在 1 项 组 合 中 的 支持 数 最 多 ， 表 示 很 多 顾客 都 喜欢 购 


买 12 号 商品 ，{12，14}266 在 2 项 组 合 中 的 支持 数 最 多 ， 表 示 12 和 14 号 商品 是 较 常 见 的 2 项 
购买 组 合 ，{12，14，16}248 在 3 项 组 合 中 的 支持 数 最 多 ， 表 示 12、14 和 16 号 商品 是 较 常 见 


的 3 项 购买 组 合 


程序 8-23.py 读 取 的 sales.csv 文 件 格式 与 在 github.com 下 载 的 包 _ e tie 的 
COVER ICRI 因此 ， 需 要 修改 一 下 源码 包 中 的 印 _growth.py， 使 之 兼容 sales.csV 
和 tsk.csv 这 两 种 文件 的 格式 ， 修改 方式 为 :在 fp_growth. py c 的 find yey itemsets P| 
数 中 增加 对 空 项 目的 判断 ， 代 码 如 下 所 示 : 











for transaction in transactions: 
processed = [] 
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for item in transaction: 
if item.strip()!='': 
items[item] += 1 
processed.append(item) 
processed_transactions.append(processed) 








修改 完毕 后 ， 需 要 重新 安装 fp_growth 包 ， 安 装 命令 如 下 : 





python setup.py install 








wwwwai bht .cam 口 看 注 臣 厅 顷 能 


























类 

a 
动 分 类 是 指 由 计算 机 系统 按照 被 考察 对 象 的 内 部 或 外 部 特征 ， his ERARI 
类 参考 〈 如 类 别 的 数量 限制 ， 同 类 对 象 的 亲近 程度 等 ) ， 将 相近 、 相 似 或 相同 特征 
的 对 象 聚 合 在 一 起 或 划分 到 不 同 种 类 的 过 程 。 





8.9.1 聚 类 算法 




















聚 美 分 析 又 称 群 分 析 ， 它 是 研究 《样品 或 指标 ) 分 类 问题 的 一 种 统计 分 析 方法 ， 同 
时 也 是 数据 挖掘 的 一 个 重要 算法 。 它 以 相似 性 为 基础 ， 相 比 于 不 同 聚 类 的 模式 ， 同 一 聚 类 
OBL RITA EERIE, ERORA Ae zen ASENA 
Z, CAM Fe ee. WOE. KAM (EWA, ERR. ME 
物 分 类 、 经 济 管理 、 社 会 经 济 统计 等 应 用 中 。 通 俗 地 说 ， 聚 类 就 是 把 相似 的 对 象 通过 静态 
n AIREZTA, E-A TER RAN RRA EA 
1. 系 统 聚 类 


系统 聚 关 法 分 析 的 对 象 是 大 量 的 样本 ， 可 合理 地 对 所 有 样品 进行 分 类 ， 同 时 没有 任 
Ee gala: 参考 或 依循 ， 是 在 没有 先 验 知识 的 情况 下 进行 的 。 系统 中 FETE HY Jet BLE 
— DRT RCA 即 同类 事物 之 间 的 距离 应 该 很 小 ， 条 用 距离 统计 量 作 为 分 类 依 
o 站 HF 


_ 首先 假定 各 个 样本 各 自 成 一 美 ， 这 时 各 类 间 的 距离 就 是 各 样品 之 间 的 距离 ， 将 距 
近 的 丙 类 合并 成 一 个 新 的 类 ; 然后 计算 新 关 与 其 他 类 间 的 距离 ， 并 将 距离 最 近 的 两 类 合 
JE, Rah R, BENEKE AAE: B R ERR 

离 临 类。 其 中 的 关键 是 距离 计算 ， 可 采用 如 下 



















































































tng BOR He 
:最 短 距离 法 ， 定 义 类 与 类 之 间 的 距离 为 两 类 最 近 样 本 间 的 距离 。 
:最 长 距离 法 ， 定 义 类 与 类 之 间 的 距离 为 两 类 最 远 样本 间 的 距离 。 
nes ye Re a aise 
类 与 类 之 间 的 距离 为 两 类 样本 对 之 间 的 平均 距离 或 两 类 样本 对 之 间 















































平均 法 ， 定 
PIRRU EIS 
"Mcquitty 相 似 法 ， 与 类 平均 法 类 似 ， 但 在 类 平均 法 的 基础 上 增加 了 加 权 方 法 。 
:重心 法 ， 定 义 类 与 类 之 间 的 距离 为 两 类 重心 (平均 值 ) 之 间 的 距离 。 


. 离 差 平方 和 法 ， 如 果 分 类 正确 ， 同 类 样本 之 间 的 离 差 平方 和 应 较 小 ， 不 同样 本 之 间 
的 离 差 平方 和 应 较 大 。 


和 
= 不 。 















































表 8-4 茶 类 型 商品 的 销售 数量 
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可 使 用 R 语 言 的 hclust 函 数 进行 聚 类 ，R 语 言 代 码 如 下 : 





> buy<-c(500, 600, 200,12, 38,59, 482, 295, 260, 279, 410, 552, 677) 
> dim(buy)<-c(13,1) 


> buy 
[,4] 
[1,] 500 
[2,] 600 
[3,] 200 
[4,] 12 
[5,] 38 
[6,] 59 
[7,] 482 
[8,] 295 
[9,] 260 
[10,] 279 
[11,] 410 
[12,] 552 
[13,] 677 
> d<-dist(buy) 
# 最 短 距 离 法 


> hclust(d,"single")->dshort 
# 最 长 距离 法 


> hclust(d, "complete" ) ->dlong 
# 中 间距 离 法 


> hclust(d, "median")->dmedian 
#Mcquitty 相 似 法 


> hclust(d, "mcquitty")->dmcquitty 
# 类 平均 法 





> hclust(d,"average")->daverage 
# 重 心 法 


> hclust(d,"centroid")->dcentroid 
# 离 差 平方 和 法 





> hclust(d, "ward.D") ->dward 
# 画 聚 类 树 形 图 (谱系 图 ) 


plot(dshort,hang=-1) 
plot(dlong, hang=-1) 
plot(dmedian, hang=-1) 
plot(dmcquitty, hang=-1) 
plot (daverage, hang=-1) 
plot (dcentroid, hang=-1) 
plot (dward, hang=-1) 


VVVVVVV 








Lae RS Ye a AE A plot ek AZ ill PA RRA AAA, unA8-464A18-52ht aN. 
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Cluster Dendrogram 
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d 
hclust(*,"single") 


图 8-46 ”最 短 距离 法 
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分 析 图 
商品 的 
5、6 号 商品 可 归 为 一 


8-52 所 示 的 谱系 图 ， 以 离 差 平方 和 法 为 例 ， 观 察 村 
平均 月 销量 进行 聚 类 ，1、7、11 号 商品 归 为 一 er 


Cluster Dendrogram 


hclust(*,"complete") 


图 8-47 最 长 距离 法 


组 ，3、8、9、10 号 商品 可 归 为 一 
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d 
hclust(*,"median") 
图 8-48 ”中 间距 离 法 


wanwa bbt. cam DREA ÉE 














Cluster Dendrogram 


300 400 


Height 
200 


的 


vo 
-一 


d 
hclust(*,"mequitty") 


图 8-49 Mecquitty 相 似 法 
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hclust(*,"average") 


图 8-50 “类 平均 法 
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图 8-51 重心 法 


再 来 看 一 个 例子 ， 假 设 茶 游戏 公 打算 针对 基 游 戏 服 务 器 各 1 级 到 70 级 之 间 的 玩家 投 
对 某 些 VIP 特殊 虚拟 商品 的 消费 外 EJ 了 聚 类 ， 分 别 有 以 下 4 个 指标 。 


:x1: 外 部 时 装 

x2: 防具 、 武 器 、 人 饰品 及 相关 加 强 配 料 

“x3: 宠物 及 相关 加 强 配件 

x4: 交通 工具 

然后 ， 将 每 10 级 玩家 设 定 为 一 个 等 级 区 CAH 级 ) ， 随 机 抽取 若干 个 该 等 级 区 内 的 


典型 玩家 样本 ， 计算 在 该 等 级 区 内 平均 每 人 每 月 消费 的 金额 〈 游 戏 币 ) 作为 指标 ， 生 成 以 
下 数据 样本 ， 如 表 8-5 所 示 。 
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Cluster Dendrogram 


hclust(*,"ward.D") 


图 8-52 ” 离 差 平方 和 法 
表 8-5 VIDA Ae HL Fi a eT 
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tH 


21-30 级 (3 T TEROR 
31-40 级 (4 等 级 ) 


320 
41-50 级 (5 等级) | 180 | 1500 | 300 | 1000 


0 6) | 200 | 3000 | 500 
61-70 48 (7 等 级 ) 


PHAR PRET RAR, RE AARU T: 


> gamebuy<-data. frame( 

+ x1i<-c(10, 20,50, 700,180, 200,1000), 

+ X2<-c(300, 400, 600, 1200, 1500, 3000, 4000), 
+ x3<-c(10, 20,500, 300, 300, 900, 1200), 

+ x4<-c(20, 20, 82,320,1000,120,400)+ , 

+ row.names=c ("14524 5038 


"， "2 等 级 玩家 
"7 "3 等 级 玩家 
"7 "4 等 级 玩家 
"，"5 等 级 玩家 
"，"6 等 级 玩家 


"， "7 等 级 玩家 


+ 
> dist(scale(gamebuy) )->d 

> hclust(d, "average" ) ->daverage 
> plot(daverage, hang=-1) 


120 
400 








从 图 8-53 可 以 看 出 ， 在 此 类 虚拟 商品 消费 能 力 方面 ，1~50 级 是 一 大 组 ， 其 中 1~20 级 
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Cluster Dendrogram 
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hclust(*,"average") 
图 8-53 ”类 平均 法 
2.K 均 值 算法 


(1) KK 均 值 算法 概述 
系统 聚 类 法 一 次 成 型 以 后 就 不 能 再 改变 ， 计 算 量 较 大 ， 而 K 均 值 (K-means) 算法 属 


于 动态 聚 类 法 ， 具 有 计算 量 较 小 、 占 计算 机 肉 存 较 少 和 方法 简单 的 优点 。K 均 信 算 法 是 很 
典型 的 基于 距离 的 聚 类 算法 ， 采 用 距离 作为 相似 性 的 评价 指标 ， 即 认为 两 个 对 象 的 嘿 离 直 
近 ， 其 相似 度 就 越 大 。 该 算法 认为 人 簇 是 由 距离 较 近 的 对 象 组 成 的 ， 因 此 将 获得 紧 北 且 独 立 
的 簇 作为 最 终 目标 。 

sey OER HO RAR CURED Aka, ken, WERE fA 
类 的 中 心 ， 使 备 个 ASHE RSI TALL) EDLC Hint FOIE 
ASHRAM IE AIL E RAI, BL 
EOR P RBA DLIMENI EE RCS RUE UTMOST, BURR AE. BOE 
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在 每 次 达 代 中 都 会 对 数据 集中 剩余 的 每 个 对 象 根据 其 与 各 个 禾 中 心 的 距离 将 其 重新 赋 给 
近 的 筷 。 当 考察 完 所 有 数据 对 象 后 ， 一 次 欠 代 运算 完成 ， 新 的 聚 类 中 心 被 计算 出 
在 一 次 达 代 前 后 ，J 的 值 没 有 发 生变 化 ， 说 明 算法 已 经 收 伍 。 

K 均 值 算法 的 具体 过 程 如 下 : 

D 从 n 个 数据 对 象 中 任意 选择 k 个 对 象 作为 初始 聚 类 的 中 心 。 


2) 根据 每 个 聚 类 对 象 的 均值 〈 中 心 对 象 ) ， 计 算 每 个 对 象 与 这 些 中 心 对 象 的 距离 ; 
并 根据 最 小 距离 重新 对 相应 的 对 象 进行 划分 


3) 重新 计算 每 个 (有 变化 ) 聚 类 的 均值 (中 心 对 象 〉。 
A) 循环 步骤 2 和 步骤 3 直到 每 个 聚 类 不 再 发 生变 化 为 止 。 


tk; 然后 将 n 个 数据 对 象 划分 为 k 个 聚 类 ， 以 便 使 得 所 获得 的 聚 
类 满足 : 同一 聚 类 中 对 象 的 相似 度 较 高 ;而 不 同 聚 类 中 对 象 的 相似 度 较 小 。 聚 类 相似 度 是 
AI RSH RAVES 心 对 象 来 进行 计算 的 。 


(2) R 语 言 的 kmeans 聚 类 


下 面 针 对 表 8-5 所 示 的 虚拟 商品 数据 ， 调 用 R 语 言 的 kmeans 函 数 进行 聚 类 





























> kmeans(scale(gamebuy), 3) ->mykmean 

> mykmean 

K-means clustering with 3 clusters of sizes 3, 2, 2 

Cluster means: 
x1....€,.10..20..50..700..180..200..1000. 





1 -0.7283260 
2 0.7529316 
3 0.3395574 
X2....C.300..400. .600..1200..1500. . 3000. .4000. 
1 -0.8042763 
2 1.3628949 
3 -0.1564805 
Xx3....C.10..20..500..300..300..900..1200. 
1 -0.6393938 
2 1.3215563 
3 -0.3624657 
x4....€.20..20..82..320..1000..120..400. 
1 -0.68490386 
2 -0.05798272 
3 1.08533851 
Clustering vector: 
1 等 级 玩家 
2 等 级 玩家 
3 等 级 玩家 
4 等 级 玩家 
5 等 级 玩家 
6 等 级 玩家 
7 等 级 玩家 
1 1 1 3 3 2 2 


Within cluster sum of squares by cluster: 
[1] 0.8408947 2.9328150 2.8138040 

(between_SS / total_SS = 72.6 %) 
Available components: 
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[1] "cluster" "centers" "totss" "withinss" 
[5] "tot.withinss" "betweenss" "size" "iter" 
9 "ifault" 
> sort(mykmean$cluster ) 

1 等 级 玩家 

2 等 级 玩家 

3 等 级 玩家 

6 等 级 玩家 

7 等 级 玩家 

4 等 级 玩家 

5 等 级 玩家 

1 1 1 2 2 3 3 





从 以 上 分 析 结 果 可 以 看 出 ，1、2、3 等 级 (1~30 级 ) 玩家 是 一 组 ，4、5 等 级 (31~50 
Bi) 玩家 是 一 组 ，6、7 等 级 (51~70 级 ) 玩家 是 一 组 。 


(3) Python 库 milk 的 kmeans 聚 类 

再 来 看 一 个 例子 ， 某 网 站 对 用 户 随机 抽样 ， 以 抽取 用 户 每 周 登录 的 次 数 作为 用 户 对 
本 网 站 热忱 程度 的 分 类 标准 ， 共 随机 抽取 了 6 位 用 户 ， 登 录 次 数 分 别 为 : 12、24、67、 
n 在 此 使 用 Python 来 完成 这 个 任务 ， 通 过 调用 milk 库 函数 实现 K-means 分 类 ， 
但 如 下 : 





# 样 本 矩阵 声明 


>>myx= np.array([12,24,67,90,34,120]) 
>>myx.shape=(6, 1) 
# 建 立 


k-means 分 类 器 ， 第 二 个 参数 


3 表示 分 成 


3 类 。 
>>learner =milk.kmeans(myx, 3) 


>>learner 
(array([1, 1, 2, ©, 1, 0]), array([[ 105. ], [ 23.33333333], [ 67. ]])) 











最 后 一 行程 序 返回 了 两 个 结果 ， 第 1 个 结果 是 分 类 完成 后 样本 所 属 的 类 别 ， 第 2 个 结 
果 是 每 个 类 别 的 重心 ， 观 察 结果 可 发 现 ， 第 1、2、5 号 用 户 属于 一 类 ， 重 心 为 105; 而 3 号 
用 户 属于 第 2 类 ， 重 心 为 23.33333333; 4、6 号 用 户 属于 第 3 类 ， 重 心 为 67。 


milk 是 一 种 可 供 Python 调 用 的 机 器 学 习 工 具 包 。 在 Linux 环 境 中 ， 需 要 首先 下 载 
milk， 网 址 如 下 : 


https://pypi.python. org/pypi/milk/ 
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下 载 完毕 后 ， 解 压 并 进行 安装 ， 安 装 命令 如 下 : 





python setup.py install 








” ”在 Windows 坏 境 中 ， 可 直接 下 载 安 次 包 进行 安装 ， 下 载 时 请 选择 与 Python 版 本 对 应 的 
文件 。 下 载 地 址 如 下 : 


http://www.|fd.uci.edu/~gohlke/pythonlibs/#milk 
此 外 ， 有 关 milk 的 相关 文档 和 资料 可 在 http://luispedro.org/software/milk 中 找到 。 
(4) Python 库 mlpy 的 kmeans 聚 类 


以 下 代码 〈 程 序 8-24.py) 调用 mlpy 库 的 kmeans 函 数 对 若干 个 随机 数 进行 聚 类 ， 并 生 
成 效果 图 〈 如 图 8-54 所 示 ) 。 





#8-24.py 

import numpy as np 

import matplotlib.pyplot as plt 
import mlpy 

np.random.seed(0) 


meani, covi, ni = [1, 5], [[1,1],[1,2]], 200 # 200 points, mean=(1,5) 

x1 = np.random.multivariate_normal(meani, covi, n1) 

mean2, cov2, n2 = [2.5, 2.5], [[1,9],[0,1]], 300 # 300 points, mean=(2.5,2.5) 
x2 = np.random.multivariate_normal(mean2, cov2, n2) 

mean3, cov3, n3 = [5, 8], [[0.5,0],[0,0.5]], 200 # 200 points, mean=(5,8) 

x3 = np.random.multivariate_normal(mean3, cov3, n3) 

x = np.concatenate((x1, x2, x3), axis=0) # concatenate the samples 


cls, means, steps = mlpy.kmeans(x, k=3, plus=True) 

fig = plt.figure(1) 

ploti = plt.scatter(x[:,0], x[:,1], c=cls, alpha=0.75) 

plot2 = plt.scatter(means[:,0], means[:,1], c=np.unique(cls), s=128, marker='d') 
plt. show() 


= 
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图 8-54 ”kmeans 聚 类 效果 图 
8.9.2 ”决策 树 


1. 决 策 树 概述 


a, BRET 代表 了 对 象 属性 与 对 象 值 之 闻 的 一 种 映 财 关系。 树 中 的 每 

点 表示 茶 个 对 象 ， 而 每 个 分 又 路 径 则 代表 某 个 可 能 的 属性 值 ， 每 个 叶 节 点 则 对 应 从 根 
O EAA RITE RRRA RME, FAAARA, Wa 
以 建立 独立 的 决策 树 以 处 理 不 同 的 输出 。 He BASSINET POR HYVER HUET SIIB, 
可 用 于 分 析 数 据 ， 同 样 也 可 用 来 预测 。 图 8-55 展 示 了 一 个 决策 树 。 
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图 8-55 ”决策 树 
通常 来 说 ， 决 策 树 包含 以 下 三 种 类 型 的 节点 。 
-决策 节点 : 通常 用 矩形 框 来 表示 。 
-机 会 节点 : 通常 用 圆圈 来 表示 。 
AA: 通常 用 三 角形 来 表示 。 
剪 枝 是 决策 树 停止 分 支 的 方法 之 一 ， 预先 部 枝 是 


在 树 的 生长 过 程 中 设 定 一 个 指标 ， DAS deren SbF ECE a 
就 是 说 一 旦 停止 分 支 ， 使 得 节 SN 成 为 呀 节目 ”就 断 编 了 其 后 继 攻 由 进行 < 好 ?区 
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Ie”, tH: 的 
4 分 支 操作 的 任何 可 外 性。 不 \ 严 格 地 说 ， 这 些 已 停止 的 分 支 会 误导 学 习 算法 ， 导致 产生 的 树 
的 不 纯度 降 差 最 9 地 方 过 分 靠近 根 节 点 百 剪 枝 中 ， 树 首先 要 充分 生长 ， 直 到 叶 节点 都 
有 最 小 的 不 纯度 值 为 止 这 样 可 以 避免 ' 视 只 局 展 "的 问题 .然后 对 让 有 相 分 的 威 对 中 节点 
考虑 是 否 消去 它们 ， 姑 黑 消去 能 引起 令 人 满意 的 不 缚 度 增长 ， 那 么 执行 消去 ， 并 令 它们 的 
公共 父 节 点 成 为 新 的 叶 节 

ee 


) 绘制 树 状 图， 根据 已 知 条 件 排列 出 各 个 方案 和 每 一 方案 的 各 种 自然 状态 。 
em， 员 益 值 标 于 概率 校 上 。 
3) 计算 各 个 方案 的 期 望 值 并 将 其 标 于 与 该 方案 对 应 的 状态 节点 上 。 


A) 进行 前 枝 ， 比 较 各 个 方案 "I 并 标 于 方案 枝 上 ， 将 最 后 所 剩 的 期 望 值 小 的 
( 即 劣 等 方案 剪 掉 ) 方案 作为 最 佳 方 
2. 决 策 树 算法 实例 
人 
的 资料 为 样本 ， 以 玩家 平均 每 月 所 发 游戏 
截图 的 数量 为 特征 ， 进 行 决策 树 训 练 ， 训 练 好 的 决策 树 模 型 可 将 其 他 玩家 分 为 热心 玩家 和 
非 热心 玩家 。 这 6 位 用 户 平 均 每 月 所 发 游戏 截图 的 数量 为 : 1 


首先 ， 训 练 决策 树 ，Python 代 码 如 下 : 

















| 





2、24、67、90、34、120。 
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>>features = np.array([12,24,67,90,34,120]) # 样 本 矩阵 数据 建立 


>>features.shape=(6,1) 
>>labels=np.array([False, False, False, True, False, True] ) # 样 本 标签 


False 为 非 热心 玩家 ， 


True 为 热心 玩家 。 


>>learner=milk.supervised.tree_learner() # 建 立 决策 树 分 类 器 








te 


样本 数据 训练 ， 返 回 分 类 器 模型 











>>model=learner.train(features, labels) 





然后 ， 对 其 他 8 位 玩家 的 数据 进行 分 类 ，Python 代 码 如 下 : 





>>testx=np,array([10,20,40,90,33,89,199,200] ) 


te 


建立 测试 样本 数据 ， 即 测试 玩家 所 发 游戏 截图 的 数量 





>>testx.shape=(8,1) 





>>> model.apply([50]) # 应 用 刚才 建立 的 决策 树 分 类 模型 ， 对 某 个 测试 样本 进行 分 类 
False 
>> model.apply_many(testx) # 应 用 刚才 建立 的 决策 树 分 类 模型 ， 对 成 批 测试 样本 进行 分 类 





[False, False, False, True, False, False, True, True] 





观察 最 后 两 行程 序 代码 的 返回 结果 ， 倒 数 第 二 行 的 程序 代码 对 50 进 行 了 测试 ， 
DON BEL AV 发 游戏 截图 50 次 的 用 户 为 非 热 心 玩家 ， 倒数 第 行程 序 代码 对 一 sat 
PATA 2 其 中 发 游戏 截图 为 0、199、200 次 的 玩家 值 返 回 为 Trne， 表 示 这 些 用 户 为 
热心 玩家 。 


接 下 来 ， 看 一 个 较 复 杂 的 例子 。 假 设 某 公 司 针 对 其 内 账 客户 进行 分 通过 随机 抽 
取 7 位 内 账 客户 进行 评估 ， SPECS BLA LX MAIAT 客户 ， (Dene sae: 
Ri, Sites ve 祭 账 客 户 进行 决策 树 分 类 。7 位 峻 账 客户 的 数据 如 表 8-6 所 示 


表 8-6 ” 肉 账 客户 的 数据 
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到 目前 为 止 累 | _ 
计 拖 欠 天 数 





应 用 Python 对 以 上 数据 进行 决策 树 算法 分 类 ， 代 码 如 下 所 示 : 





>> 
x=np.arr ay([[5600,58000,1300,2900,800,35000,9800], [4,6,1,3,2,4,2],[50,120,8,12, 
5,190, 19] ] )# 建 立 样本 数据 





>> features=x.T 
>> features 


array([[ 5600, 4, 50], 
[58000, 6, 120], 
[ 1300, 1, 8], 
[ 2900, 3, 12], 
[ 800, 2, 5], 
[35000, 4, 190], 
[ 9800, 2; 10]]) 

# 建 立 决策 树 模型 





>> learner=milk.supervised.tree learner() 
>> model=learner.train(features, labels) 
# 对 到 目前 为 止 仍 欠 款 


1200， 欠 款 笔 数 为 


3， 到 目前 为 止 累计 拖欠 











13 天 的 客户 进行 判断 ， 确 定 其 是 否 属 于 可 容忍 客户 ， 经 决策 树 模 型 分 析 ， 可 以 容忍 。 








>> model.apply([1200,3,13]) 
True 
# 对 到 目前 为 止 仍 欠 款 
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12000， 从 款 笔 数 为 


13， 到 目前 为 止 累计 拖欠 











103 天 的 客户 进行 判断 ， 确 定 其 是 否 属于 可 容忍 客户 ， 经 决策 树 模型 分 析 ， 不 能 容忍 。 





>> model.apply([12000, 13, 103] ) 
False 





8.9.3 AdaBoost 





AdaBoost 分 类 算法 是 一 种 迭代 分 类 算法 ， 它 会 在 每 一 轮 中 加 入 一 个 新 的 弱 分 类 器 
直到 达到 茶 个 预定 的 足够 小 的 错误 率 为 止 。 每 一 个 训练 样本 部 被 赋予 一 个 权重 ， 
某 个 分 类 器 先入 训练 集 的 概率 。 如 果 某 个 样本 点 已 经 被 准确 地 分 类 ， 那么 在 构造 
练 集 中 ， 它 被 选中 的 概率 就 会 被 降低 ， 相反 ， 如 采 茶 个 样本 点 没有 被 准确 地 分 
的 权重 就 得 到 了 提高 。 通过 这 种 方式 ，AdaBoost 方 法 能 聚焦 于 那些 较 难 分 〈 更 
样 该 算法 的 核心 思想 如 下 : 



































最 初 令 每 个 样本 的 权重 都 相等 ， 对 于 第 k 次 述 代 操作 ,我们 就 根据 这 些 权重 来 选取 样 
本 点 ， 进 而 训练 分 类 器 Ck ; 然后 就 根据 这 个 分 类 器 ， 来 提高 被 它 分 错 的 样本 的 权重 ， 并 
降低 被 正确 分 类 的 样本 的 权重 ; 最 后 ， 更 新 过 权重 的 样本 集 被 用 于 训练 下 一 个 分 类 器 
Ck+1 。 E a A FE 


AdaBoost 算 法 的 具体 过 程 如 下 : 
1) 先 通 过 对 N 个 训练 样本 的 学 习 得 到 第 一 个 弱 分 类 器 。 


人 起 构成 一 个 新 的 N 个 的 训练 样本 ， 通 过 对 这 个 样 
本 的 学 习 得 到 第 二 个 弱 分 类 器 


3) 将 # BEE IESE LR AE tena Aa 个 新 的 N 个 的 训练 样本 ， 
过 对 这 个 样本 的 学 习 得 到 第 三 个 弱 分 类 器 
A) WRR, HAART HET} GB AA) eR BE 


Ak EDA E — T AR MR A Py a SET A 假设 该 公司 随机 抽取 7 位 内 账 客 广 进行 评 
估 ， 之 后 按 信 用 等 级 对 其 进行 分 类 ( 共 分 为 3 级 1 级 信用 等 级 最 差 ，3 级 信用 等 级 最 好 ) 
并 以 这 些 客 户 为 样本 数据 ， 尝 试 对 更 多 的 内 A o TALIRI A J 
的 数据 如 表 8-7 所 示 。 














表 8-7 肉 账 客户 的 数据 
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到 目前 为 止 仍 欠 款 Ritesh 


5600 
58 000 
1300 
2900 
800 





# 导 入 相关 库 


>> Import 
>> Import 
>> Import 
# 建 立 分 类 器 





milk.supervised.tree 
milk.supervised.adaboost 
milk.supervised.multi 


>> weak = milk.supervised.tree.stump_learner() 
>> learner = milk.supervised.adaboost .boost_learner (weak) 
>> learner = milk.supervised.multi.one_against_one(learner ) 


# 样 本 数据 及 样本 分 类 


>> 





a 


X=np.array([[5600, 58000, 1300, 2900, 800, 35000, 9800], [4,6,1,3,2,4,2], [50,120, 8, 


12,5,190, 
>> featur 


>> labels= 


>> learne 


然后 ， 对 测试 样本 进行 预测 ， 


仍 欠 款 ， 第 二 个 元 素 是 欠 款 笔 数 ， 第 三 个 元 素 是 到 目前 为 止 累计 拖 


>>> model. 


>>> model. 


>>> model 


>>> model 


>>> model. 
>>> model. 
>>> model. 


>>> model. 


10]]) 

es=x.T 
np.array([2,1,3,2,3,1,2]) 
r.train(features, labels) 


apply([1000,3,10]) 

apply([10000, 3,10] ) 
.apply([10000, 5,10] ) 
.apply([10000, 5,100] ) 
apply([50000,5,100] ) 
apply([50000,5,10]) 
apply([5000,15,100] ) 


apply([5000,15,100] ) 
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返回 信用 等 级 ， 


WEA 


mére 

















一 个 元 素 是 


天 数 。 


FRSA 


? 


| 
3 


rm, 


rm, 








到 目前 为 止 





2 
>>> model.apply([28000,15,100] ) 
2 


>>> model.apply([38000,15,10]) 
1 





分 析 以 上 结果 ， Agana oo 15，10]) 为 例 ， 返 回 1 表 示 目 前 为 止 仍 欠 款 
38000， 父 款 笔 数 15 次 ， 目 前 为 止 系 计 拖 从 10 天 的 信用 等 级 为 1 级 ， 信 用 等 级 最 差 。 


8.9.4 竞争 型 神经 网 络 


神经 生物 学 的 研究 结果 表明 : S N 对 特定 的 图 形 输入 模 
式 比 较 敏 感 ， 并 使 得 大 脑 皮 层 中 的 特定 细胞 产生 较 大 的 兴奋 ， 而 与 其 相 邻 的 神经 细胞 
则 被 抑制 。 Hp eee ah ses TEEN, 对 于 某 一 个 输入 模式 ， 通 过 竞争 

只 激活 一 个 相应 的 输出 神经 元 ; 有 有 许多 输入 模式 ， 则 在 输出 层 中 激活 许多 个 
元 ， ”从 而 形成 一 E ， 可 实现 对 输入 模式 自动 进行 分 类 。 


竞争 型 神经 网 络 一 般 是 由 输入 层 (模拟 视网膜 神经 元 ) 和 竞争 层 e 申 
经 元 ， 也 叫 输出 层 ) 构成 的 两 层 网 络 ， 两 层 中 的 各 神经 元 之 间 实 现 双 疝 全 连接 ， 而 且 网 络 
中 没有 隐 含 层 ， 有 时 竞争 层 各 神经 元 之 间 还 存在 横向 连接 ， 对 于 某 一 输入 模式 ， tee ei 型 
神经 网 络 中 ， 和 该 模式 最 相 晶 近 的 学 习 输入 模式 相对 应 的 竞争 层 神经 元 将 有 最 大 的 输出 值 ， 
即 以 竞争 层 获 胜 神经 元 来 表示 分 类 结果 。 竞 争 型 神经 网 络 结构 如 图 8-56 所 示 。 





FS 























输入 回 量 





图 8-56 ”竞争 型 神经 网 络 


程序 8-25.py 演 示 了 竞争 型 神经 网 络 : 





# -*- coding: utf-8 -*- 
#8-25.py 

import numpy as np 

import neurolab as nl 
import numpy.random as rand 
# 每 一 类 的 中 心 
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centr = np. array([[®. 2, 0. 2], [0.4, 0.4], [0.7, 0.3]]) 
# 以 每 类 的 中 心 为 基础 ， 产 生 随机 点 








rand_norm = 0.05 * rand.randn(100, 3, 2) 

inp = np.array([centr + r for r in rand_norm]) 
inp.shape = (100 * 3, 2) 

rand. shuffle(inp) 

# Create net with 2 inputs and 3 neurons 

net = nl.net.newc([[0.0, 1.0],[0.0, 1.0]], 3) 
人 # 训 练 该 神经 网 络 


# train with rule: Conscience Winner Take All algoritm (CWTA) 
error = net.train(inp, epochs=200, show=20) 
# Plot results: 
import pylab as pl 
pl.title('Classification Problem' ) 
pl.subplot (211) 
pl.plot(error) 
pl.xlabel('Epoch number' ) 
pl.ylabel('error (default MAE)') 
w = net.layers[0].np['w'] 
pl.subplot (212) 
pl.plot(inp[:,0], inp[:,1], '.', N 
centr[:,0], centr[:, 1] , 'yv', N 
w[:,0], wl:,1], 'p' ) 
pl.legend(['train samples', 'real centers', 'train centers'], loc=2) 
pl.show() 











程序 8-25.py 创 建 了 3 个 神经 元 ， 接 受 2 个 输入 ， 输 出 为 3 类 。 运 行程 序 8-25.py， 输 出 结 
果 如 图 8-57 所 示 。 
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v v real centers 
e © train centers 





图 8-57 ”竞争 型 神经 网 络 分 类 


观察 图 8-57， 程 序 将 训练 用 样本 点 聚集 为 3 个 类 别 ， 其 中 ，train ”samples 表 示 训 练 样 
AX, real centers 表 示 真 实 中 心 ，train centers 表 示 训 练 中 心 。 


下 面 在 程序 8-25.py 的 基础 上 加 入 测试 用 的 平均 随机 分 布点 ， 检 查 其 分 类 效果 ， 如 程 
序 8-26.py 所 示 : 








# -*- coding: utf-8 -*- 
#8-26.py 

import numpy as np 

import neurolab as nl 
import numpy.random as rand 
# 每 一 类 的 中 心 
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centr = np. array([[0. 2, 0.2], [0.4, 0.4], [0.7, 0.8]]) 
# 以 每 类 的 中 心 为 基础 ， 产生 随机 点 。 











rand_norm = 0.05 * rand.randn(100, 3, 2) 

inp = np.array([centr + r for r in rand_norm]) 
inp.shape = (100 * 3, 2) 

rand. shuffle(inp) 

# Create net with 2 inputs and 3 neurons 

net = nl.net.newc([[0.0, 1.0],[0.0, 1.0]], 3) 
人 # 训 练 该 神经 网 络 


# train with rule: Conscience Winner Take All algoritm (CWTA) 
error = net.train(inp, epochs=200, show=20) 
# Plot results: 

import pylab as pl 

pl.title('Classification Problem' ) 
pl.subplot (211) 

pl.plot(error) 

pl.xlabel('Epoch number ' ) 

pl. ylabel('error (default MAE) ') 

w = net.layers[0].np['w'] 

# 生 成 





100% 


[9, 1) 之 间 的 平均 分 布 的 随机 数 





rand_array=np.random.random( (100, 2) ) 
result=net.sim(rand_array) 
plotshape=[] 
colorindex=['r','y','g'] 
for myres in result: 
index=0 
for tmp in myres: 
if tmp==1: 
plotshape.append(colorindex[index]+'p') 
break 
index+=1 
pl.subplot (212) 
pl.plot(inp[:,0], inp[:,1], '.") 
for i in range(len(result)-1): 
pl.plot(rand_array[i,0],rand_array[i, 1],plotshape[i] ) 
pl.show() 





程序 8-26.py 生 成 了 100 个 LO, 1) 之 间 的 平均 分 布 的 随机 数 ， 然 后 由 训练 完成 的 神经 
进行 分 类 。 运 行程 序 8- pony 效 坟 如 图 8- 58 所 示 ， 训 a ae 测试 样本 
多 边 形 ， 测 试 样 本 点 的 不 同色 彩 SRR TESIAK., 外， 图 8-58 上 方 的 图 表示 
， 从 误差 曲线 来 看 ， 神 经 网 络 训练 过 程 顺利 ， 呈 平滑 下 降 趋势 。 


网 


ayy 


误 
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图 8-58 测试 点 聚 类 
表 8-8 网 站 的 访问 量 情 况 
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l 106 37 
3 128 39 
7 62 30 
8 62 36 
上 页 | 








设 某 网 站 的 访问 量 比较 稳定 ， 无 突出 变化 ， 以 某 周 所 有 地 区 对 该 网 站 的 访问 情况 为 
人 
又 编号 ) o 


编写 程序 8-27.py， 实 现 对 表 8-8 所 示 的 来 访 地 区 的 聚 类 ， 此 外 ， 再 增加 100 个 随机 
点 ， 检 测 聚 类 效果 。 




















# -*- coding: utf-8 -*- 
#8-27.py 

import numpy as np 
import neurolab as nl 
# 读 取 数 据 


import csv 
datacluster=[] 
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file = open("access_area.csv",'r') 

file.readline() 

reader = csv.reader(file) 

for datarow in reader: 
datacluster.append([float(datarow[1]),float(datarow[2])]) 

accessdata=np.array(datacluster ) 

# Create net with 2 inputs and 7 neurons, 分 为 


net = nl.net.newc([[0.0, max(accessdata[:,0])],[0.0, max(accessdata[:,1])]],7) 
# 训 练 该 神经 网 络 


# train with rule: Conscience Winner Take All algoritm (CWTA) 
error = net.train(accessdata, epochs=200, show=20) 
# Plot results: 

import pylab as pl 

pl.title('Classification Problem' ) 

pl.subplot (211) 

pl.plot(error) 

pl.xlabel('Epoch number' ) 

pl.ylabel('error (default MAE)') 

w = net.layers[0].np['w'] 

# 生 成 





1090 个 平均 分 布 的 随机 数 





rand_array=np.random.random((100,2))*np.array([max(accessdata[:,0]),max(accessdata[:,1])]) 
result=net.sim(rand_array) 
plotshape=[] 
colorindex=['r','y','g','c ','m','k', 'b'] 
for myres in result: 

index=0 

for tmp in myres: 

if tmp==1: 
plotshape.append(colorindex[index]+'p') 
break 
index+=1 

w = net.layers[0].np['w'] 
pl.subplot (212) 
pl.xlabel('Pv') 
pl.ylabel('Uv') 
pl.plot(accessdata[:,0], accessdata[:,1], '.') 
for i in range(len(result)-1): 

pl.plot(rand_array[i,0],rand_array[i, 1],plotshape[i] ) 
for i in xrange(7): 

pl.plot(w[i,0], w[i,1],colorindex[i]+'v') 
pl.show() 
Epoch: 20; Error: 786.921489826; 
Epoch: 40; Error: 784.125494497; 
Epoch: 60; Error: 783.165674735; 
Epoch: 80; Error: 782.677433443; 
Epoch: 100; Error: 782.381170541; 
Epoch: 120; Error: 782.182073001; 
Epoch: 140; Error: 782.039000206; 
Epoch: 160; Error: 781.931187336; 
Epoch: 180; Error: 781.84701229; 
Epoch: 200; Error: 781.77945951; 
The maximum number of train epochs is reached 
>>> 





运行 程序 8-27.py， 将 样本 聚 成 ?7 类， 同时 将 测试 点 较 好 地 完成 分 类 。 效 果 如 图 8-59 所 
ZN o 














wawai bbt .cam DEE ATCHHE 























[POO +e E 





8-59 HKR% 
观察 图 8-59， 不 同色 彩 的 多 边 形 代 表 了 测试 点 被 分 成 了 7 类 ， 此 外 ， 程 序 还 绘制 了 样 
本 点 及 倒 三 角 代表 的 类 别 中 心 点 ， 总 体 来 看 ， 效 果 还 不 错 。 


8.9.5 ”Hamming 神 经 网 络 
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最 典型 的 Hammin 第 一 层 上 面 的 方 框 是 输入 数据 ， 每 个 输入 数 
相连 。 每 个 神经 组 连接 权 值 存储 的 是 一 个 识别 对 象 的 模板 ， heart 
输 人 数据 与 其 ERLE 存 模板 的 匹配 距离 ， 匹 配 程度 由 神经 元 输出 ， 











Input 





output 
8-60 Hamming 神 经 网 络 


假设 销售 茶 虚拟 物品 时 ， 向 客户 展示 了 一 些 相 关 的 畅销 虚拟 物品 ， 以 吸引 客户 点 击 
购买 ， 以 表 8-9 所 示 的 数据 为 例 ， Pe ORMR DINE AR. 


表 8-9 点击 数 据 





O 表 8-9 中 ，A1 表 示 A 类 虚拟 物品 的 1 号 商品 ，B2 表 示 B 类 虚拟 物品 的 2 号 商品 ， 以 此 类 ， 
推 。 每 一 行 代表 一 类 ， 每 列 数 据 代表 该 类 客户 浏览 的 虚拟 商品 ， 如 果 该 虚拟 商品 点 击 量 较 
Z, WSL AUKA. 

编写 Python 代码 进行 聚 类 〈sales4.csv 在 本 书 源 代码 包 中 ) ， 如 程序 8-28.py 所 示 。 


# -*- coding: utf-8 
#code: yale cen te com 
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#8-28.py 
import numpy as np 
import neurolab as nl 
# 读 取 数 据 


import csv 
datatarget=[] 
file = open("sales4.csv",'r') 
file.readline() 
reader = csv.reader(file) 
ii=0 
for datarow in reader: 
datatarget.append([]) 
for data in datarow: 
datatarget[ii].append(int(data)) 
ii=ii+1 
datatarget=np.array(datatarget) 
input = [[1,1,1,1,-1,1,1,-1,-1, -1,-1, -1], 
[1, -1,1,-1,1,-1,1,1, -1, -1,-1,1], 
[1,1, -1,-1,1,-1,-1,-1,-1,1,1, -1]] 
# Create and train network 
net = nl.net.newhem(datatarget) 
output = net.sim(datatarget) 
print u" 样 本 数据 ， 结 果 必 须 为 


[0, 1, 2, 3, 4]" | 
print np.argmax(output, axis=0) 
output = net.sim(input) 

print u" 测 试 数据 的 神经 网 络 最 终 输 出 


print output 
print u" 测 试 数据 的 分 类 结果 如 下 : 


ii=0 

for test in output: 
print input[ii], 
print u" 分 类 如 下 


print np.argmax(test) 
ii+=1 





”程序 8-28.py 首 先 读 取样 本 sales4.csv 文 件 ， 然 后 将 样本 数据 送 入 Hamming 神 经 网 络 中 
进行 训练 ， 还 让 程度 由 神经 元 葵 出 ， 匹配 度 越 高 ， 输 出 值 越 大 ， eee 
置 即 最 终 分 类 ;最 后 ， 用 测试 数据 进行 验证 。 执 行程 序 8-28.py， 结 果 如 下 


样本 数据 的 结果 必须 为 [0，1，2，3，4] 。 


[0 1 2 3 4] 











测试 数据 神经 网 络 的 最 终 输 出 如 下 : 





[[ 0.52608 0 0 0. 0 ] 
[ 0. 0 0 0.464 0 ] 
[ 0. 9 0 o. 0.4992 Ji 





来 看 看 测试 数据 的 分 类 结果 。 
[1, 1, T; 1, -1, 1; 1, -1, -1, ep 1, -1, =] 分 类 如 下 : 
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[1, -1, 1, -1, 1, -1, 1, 1, -1, -1, -1, 1] 分 类 如 下 : 





3 





Ei; 1; -1 21; i; She 1 1 分 类 如 下 : 





4 





观察 上 述 结果 ， 三 组 测试 数据 均 分 类 准确 ， 效 果 不 错 。 
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8.10 小结 








机 器 学 习 算法 是 机 器 学 习 的 灵魂 。 本 章 首 先 介绍 神经 网 络 ， 由 浅 入 深 地 讲述 了 基于 
Rosenblatt 咸 知 器 的 线性 神经 网 络 、 问 传 播 算法 及 基于 多 层 感知 器 的 非 线 性 神经 网 络 ; 











然后 介绍 了 平均 值 与 方差 、 贝 叶 斯 分 类 等 统计 算 } i 

法 : Rk BBE aN ALAA 再 然后 1 解 了 SVM、 Bee ee 
法 ; 最 后 讲解 了 关联 规则 算法 、 常 用 聚 类 

网 络 、Hamming 神 经 网 络 等 算法 知识 。 


在 讲述 算法 的 同时 ， 笔 者 理论 联系 实际 ， a) ee se EB 
践 机 器 学 习 算法 。 此 外 ， 为 帮助 读者 更 好 地 理解 算法 ， 在 解说 每 一 节 的 算法 之 前 ， 均 介 
了 算法 涉及 的 数学 基础 知识 。 


每 一 种 机 器 学 习 算法 不 一 定 能 完成 所 有 机 器 学 习 的 任务 。 因 此 ， 应 在 实践 中 应 用 这 
些 算 法 ， 观 察 算法 的 实际 效果 ， 以 求 选 择 最 合适 的 算法 。 


此 外 ， 本 章 介 绍 的 机 器 学 习 相 关 库 的 官方 文档 的 网 址 如 下 : 
‘mlpy: http://sourceforge.net/projects/mlpy/files/mlpy%203.5.0/mlpy.pdf/download 
‘neurolab: https://pythonhosted.org/neurolab/index.html 
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) 编写 Python 代码 实现 一 个 Rosenblatt 感 知 器 ， 随 机 产生 一 组 X 和 YY 的 样本 值 ， 这 
此 样本 秆 分 | 属于 以 下 两 类 函数 : 


5x-3=y 为 第 1 类 
2x+6=y 为 第 2 类 
然后 用 随机 生成 的 测试 数据 进行 分 类 ， 并 绘制 出 分 类 线 。 


(2) 编写 Python 代码 实现 多 层 感 知 器 ， 随 机 产生 一 组 X 和 Y 的 样本 值 ， 用 随机 数据 
peal 行 测 试 绘制 散 点 图 和 误差 曲线 ， 计 算 X 和 Y 的 方差 和 平均 值 ， 分 析 其 分 











(3) 编写 Python 代 但 实 现 多 层 感知 器 ， 绘制 样本 散 点 图 和 误差 曲线 。 随 机 产生 一 
X 样 本 值 ， 并 将 Y 的 样本 值 函数 定义 为 : 


Y=sin(x)*0.7 


(4) 编写 Python 代码 实现 SVM 算法 ， 随机 产生 一 组 X 和 Y 的 样本 值 ， 这 些 样本 值 分 
别 属 于 以 下 两 类 闻 数 : 


Hi 
y=x\atb (a<=3，abs(b)<20) 为 第 一 
y=x\at+b (a>=5，abs(b)<10) 为 第 二 类 
然后 用 随机 生成 的 测试 数据 进行 分 类 ， 并 绘制 出 散 点 图 。 
(5) 选择 一 组 数据 ， 用 Python 实 现下 面 的 回归 方程 : 
y=b1*x2+b2*x1? +b3*x1*x2 


(6) 下 载 本 书 的 sales4.csv 文 件 ， 加 入 更 多 类 别 的 样本 数据 ， 并 生成 一 些 随机 测试 数 
据 ， 进 行 Hamming 神 经 网 络 分 类 ， 并 测试 分 类 效果 。 


oe oo ea 并 生成 一 些 测试 样本 数据 ， 进 行 Hamming 神 
经 网 络 分 类 ， 检 查分 类 效果 


提示 : 可 将 数字 的 像素 MARIEKE, To S 比如 : 8 可 表示 为 以 下 由 
像素 点 组 成 的 矩阵 〈1 表 示 有 像素 点 ，-1 表 示 无 像素 点 
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将 8 的 像素 点 矩阵 由 左 到 右 、 由 上 到 下 依次 展开 ， 生 成 特征 值 如 下 : [上 1，1，1， 
1, -1, 1, 1, 1, 1, 1, -1, 1, 1, 1, 1]. 

(8) 下 表 是 某 些 顾客 对 A~D 四 类 商品 的 季度 消费 金额 ， 对 这 些 顾客 运用 本 章 讲解 的 
各 种 聚 类 方法 进行 聚 类 。 
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前 面 儿 章 涉及 了 很 多 回归 分 析 算 法 ， 


Ñ, 
的 拟 合 


TAE 
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， 分 析 这 些 数 据 
个 方程 与 己 知 数据 相 吻 
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型 ， 然 后 分 析 回 归 效 





i DA 
清楚 两 个 或 两 个 以 上 变量 之 间 的 因果 关系 ， 因 此 ， 这 些 算法 都 是 对 数据 


MARE 











9.1 数据 拟 合 


分 析 一 个 自 变 量 和 一 个 因 变量 之 间 的 关系 ， 可 通过 图 像 分 析 法 与 神经 网 络 拟 合法 建 
数学 模型 进行 映射 。 





9.1.1 图 像 分 析 法 

















sep EL ee Tl tae at 
个 散 点 图 。 通过 分 析 散 点 图 中 这 些 点 的 几何 分 布 趋势 ， 对 照常 见 函数 图 像 ， 选 择 最 接近 
最 适合 的 数学 函数 作为 拟 合 方程 。 


ee ee ee 个 直观 的 认识 。 因 
此 ， 这 里 先 介绍 第 见 的 数学 函数 。 


1. 寡 函数 


fe POE IZ Ufa? 的 函数 ， 函 数 以 底数 为 目 变 量 ， 寡 为 因 变 量 ， 指 数 a 为 常量 ，a 
ATURE. AEB. ER BE. FEE LAS ie R BL 


.指数 为 1、2、1/2 的 寡 函 数 ， 它 们 分 别 为 y=x、y=x< 、y=xl2 ， 图 像 如 图 9-1 所 示 。 
.指数 为 3、1/3 的 宕 函数 ， 它 们 分 别 为 y=x3 、 i, gener. 























图 9-1 FEAL 2. 12NW RRMA 
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图 9-2 83. 13H RRMA 





.指数 为 -1 的 寡 函 数 ， 函 数 为 y=x1l ， 图 像 如 图 9-3 所 示 。 
2. 一 次 函数 


一 次 函数 又 称 线性 函数 ， 是 指 拥有 一 个 变量 的 一 阶 多 项 式 函数 。 一 次 函数 可 以 表达 
为 以 下 斜 截 式 的 格式: 


f(x)=kx+b 
其 中 ，k 是 和 斜率，b 是 截 距 。 


一 次 函数 在 二 维 坐标 系 中 表现 为 一 条 直线 ， 以 自 变 量 为 X 轴 ， 以 因 变 量 为 Y 轴 。 如 : 
y=2x+1 和 和 y=-x+1 属 于 一 次 函数 ， 它 们 的 图 像 如 图 9-4 所 示 。 
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图 9-3 ”指数 为 -1 的 寡 函 数 图 像 


y 
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图 9-4 一 次 函数 图 像 
3 一 元 二 次 函数 


如 R= ax? +bx+c (a、b、c 为 常数 ， A ， 则 称 y 为 x 的 一 元 二 次 函数 ， 其 中 ，a 
称 为 二 次 项 系数 ，b 为 一 次 项 系数 ，c 为 常数 项 























二 次 函数 是 抛物 线 ， 是 轴 对 称 图 形 ， 它 的 对 称 轴 为 直线 2a, 它 的 顶 














| b 4ac—b’ j 
点 坐标 为 2a 4a 此 外 ， 一 元 二 次 函数 还 可 写成 交点 式 : y=a(x- X1)(x- 
x, ) 交点 式 仅 限 于 与 x 轴 有 交点 的 抛物 线 ， 与 x 轴 的 交点 坐标 是 (x,，0) 和 Cx,, 0) 。 






































如 图 9-5 所 示 为 一 二 次 函数 y= 2x2 +x+1 Fily=-2x° +x+2 的 图 像 。 a =k 
二 次 函 数 是 一 个 江口 向 上 或 开口 让 下 的 抛物 线 ， 二 次 项 系数 a 决定 抛物 线 的 方略 和 大 
小 ， a 抛物 线 向 上 开口 ， 当 a<0 时 ， 抛 物 线 向 下 开口 。al 越 大 ， AER 口 越 
4. 指 数 函 数 





指数 函数 y=eX 是 数学 中 重要 的 函数 ， 这 里 的 e 是 数学 常数 ， 就 是 自然 对 数 的 底数 ， 近 
A 的 图 像 总 在 x 轴 之 上 并 从 左 向 右 递增 ， 它 接近 x 轴 但 不 会 与 x 轴 
Be 
此 外 ， 还 可 定义 更 一 般 的 指数 函数 y=aX ， 对 于 a>0 和 实数 x， 该 函数 可 称 为 底数 为 a 的 
指数 函数 。aX 可 如 下 变换 为 以 e 为 底 的 指数 函数 。 


aX =(elna yx =eXln a 



























































et 函数 y=ax ， 当 a>1 时 ， 从 左 到 右 函 数 是 递增 的 ， 否 则 函数 是 递 
减 的。 指数 函数 遵循 以 下 运算 规律 : 
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y =)? TET l 


=Z 3 # 53 


y=—2x*+x+2 


图 9-5 二 次 函数 图 像 








图 9-6 ”指数 函数 y=eX 
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yr=a" 4 y=a 


(a>1) 






(O<a>1) 


r6=(0b) 


5. 对 数 函 数 


相对 于 底数 a 数 x 的 对 数 是 ay 的 指数 y， 使 得 x=oy ， 相 对 于 底数 a 的 数 x 的 对 数 通 常 记 
为 y=loga x， 在 工程 计算 中 常用 e、10 和 2 来 做 底数 ， 如 表 9-1 所 示 。 


”观察 图 9-8 所 示 的 对 数 函 数 图 像 ， 可 看 出 ， 当 a>1 时 ， 函 数 是 递增 的 ， 否 则 ， 函 数 是 
递减 的 。 自 然 对 数 的 底 e 大 于 1， 它 的 函数 图 像 是 递增 的 ， 如 图 9-9 所 示 。 


表 9-1 常用 对 数 函 数 表示 
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第 用 对 数 
日 然 对 数 





6. 三 角 函 数 


三 角 函 数 中 使 用 得 最 多 的 是 正弦 (如 图 9-10 所 示 ) 、 余 弦 〈 如 图 9-10 所 示 ) 、 正 切 
《如 图 9-11 所 示 ) 、 余 切 ( 如 图 9-12 所 示 ) 


y4 
3 
2 
y= =log x 
l (a>1) 
0 
3 
= 
y=log x 
一 (0<a<1) 
a3 
—4 


图 9-8 y=logg x 
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图 9-9 ”自然 对 数 


y=sin x y=cos x 





图 9-10 ”正弦 函数 与 余弦 函数 
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y=tan x 


we tw D 


图 9-11 正切 函数 
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4 
3 
2 
l 
-2 0 6 
] 
图 9-12 RUR 
7 .多项式 函 数 
3 
x 3x? 3x 
y= 一 + 一 一 一 一 
多 项 式 的 函数 图 像 呈 现 连 续 曲线 ， 以 多 项 式 4 4 2 和 


y=x2 -x-2 为 例 ， 其 函数 图 像 如 图 9-13 和 图 9-14 所 示 。 


[fens 前 面 列举 的 函数 图 像 ， 可 发 现 常 见 的 函数 分 为 两 种 ; 线性 函数 与 非 线性 2 
数 。 线性 E 是 变量 与 自 变量 成 一 次 方 的 函数 关系 ， CEL ZK; 
ROR WRIA ORS RINT SLL 函数 图 像 呈 现 为 曲线 。 


线性 拟 合 是 以 一 条 直线 来 拟 合 自 变 量 与 因 变 量 的 关系 ， 而 非 线性 拟 合用 连续 曲线 
A SHIRE RI RR, 下 面 以 几 个 具体 实例 说 明 图 像 分 析 法 在 线性 与 非 线性 拟 
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图 9-13 4 4 2 的 函数 图 像 


图 9-14 y=x? -x-2 的 函数 图 像 


1) 多 项 式 是 非 线性 函数 ， 如 图 9-15 所 示 的 图 像 为 两 类 样本 数据 生成 的 散 点 图 ， 其 中 
虚线 和 实 线 各 代表 一 类 。 
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图 9-15 T 


从 图 9-15 看 ，X 轴 的 区 域 为 [0，5] ， 两 条 曲线 代表 的 数据 都 比较 接近 多 项 式 函 数 图 
像 y=xa +b, Al, Pro eres 此 外 ， 从 图 像 可 判定 ， 虚 线 函 数 
Hee 要 比 实 线 函 数 的 导数 增长 得 快 ， 虚 线 数据 表示 的 方程 参数 a 要 比 实 线 表 示 的 方程 参 
Bak, JRA: EHTEL 导数 越 大 ， 切 线 越 陡 ， 而 虚线 函数 的 切线 明显 要 比 
实 线 函 数 陡 很 多 ， ee ee 事实 上 ， 图 9-15 所 代表 的 两 类 数据 的 模型 分 
别 为 ， 虚 线 是 y=x2 +6， 实 线 是 y=x3 +6。 

大 学 

ji 

















2) 生 吴 高 与 体重 线性 拟 合 。 从 某 大 学 中 随机 选取 9 名 女 大 学 生 ， 其 身高 和 体重 
BY 如 表 9-2 所 示 。， 下 面 分 析 这 些 数 和 据 并 建立 女 大 学 生 身 高 与 体重 模型 ， 从 而 指导 女 大 学 
生 通 过 简易 的 公式 查询 自己 的 体重 是 否 标准 。 


表 9-2 女 大 学 生 身 高 与 体重 数据 























首先 ， 使 用 R 语 言 输入 数据 (本 例 只 有 9 个 数据 ， 可 手工 录入 。 当 数据 量 很 大 时 ， 可 
使 用 第 6 章 介 绍 的 read.table 函 数 读 取 数 据 ) 。 





>c(58, 63,57, 65, 62, 66, 58, 59, 62) ->y 
>c(160, 165, 158, 172, 159, 176, 160, 162, 171) ->x 
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接着 ， 用 自 变 量 身高 (x) 与 因 变 量 体 重 〈y) 组 成 9 个 数据 点 ， 绘 制 在 直角 坐标 系 





观察 分 析 散 点 图 趋势 ， 图 9-16 表 明 ， 随 着 x 的 增长 ，y 也 增长 ， 数 据点 呈 一 条 直线 分 
(线性 拟 合 )。 
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9-16 “KAS RARE 
下 面 以 直线 模型 对 数据 进行 拟 合 ， 可 通过 R 语 言 进行 拟 合 分 析 。 


> 1lm(y~x) ->xy 
> summary(xy) 


Call 
lm(formula = y ~ x) 
Residuals: 

Min 1Q Median 3Q Max 
-1.7317 -1.0989 -0.9412 0.8471 3.3223 
Coefficients: 


Estimate Std. Error t value Pr(>|t|) 
(Intercept) -8.28830 15.94636 -0.520 0.61926 
X 0.42117 0.09671 4.355 0.00333 ** 


Signif. codes: 0 
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0.001 * 


1 

Residual standard error: 1.808 on 7 degrees of freedom 
Multiple R-squared: 0.7304, Adjusted R-squared: 0.6919 
F-statistic: 18.97 on 1 and 7 DF, p-value: 0.003334 








通过 对 上 述 直线 方程 模型 的 分 机 ， 可 初步 得 出 以 下 结论 : 


直线 方程 即 线性 方程 ， 可 写成 y=ax+b 的 方式 ，a 即 系数 〈Coefficients 项 中 的 x) 为 
0. 42117, b 即 截 距 (Coefficients 项 中 的 Intercept〉 为 -8.28830， 线 性 拟 合 模 型 为 y=0.42117x- 
8.28830。 


“Coefficients 栏 的 x 行 尾 的 星 号 
0~3，* 的 数量 越 多 则 线性 关系 越 显 
并 不 是 非常 显著 ， 否 则 星 号 应 为 3 个 


下 面 绘制 回归 线 ， 图 9-17 所 示 。 观 察 各 数据 点 在 回归 线 周 围 的 分 布 情况 ， 目 测 拟 合 























为 2 个 。 星 号 的 含义 表示 线性 关系 是 否 显著 : * 的 数量 是 
在 本 例 中 ， 自 变量 身高 与 因 变 量 体 重 的 线性 关系 

















> plot(x,y) 
> abline( lm(y~x)) 


从 图 9-17 来 看 ， 数 据 分 布 在 回归 线 周 围 ， 但 某 些 数据 点 的 残 差 较 大 〈 比 如 155 到 160 
身高 段 ) 。 总 体 来 说 ， 数 据 拟 合 效果 较 好 ， 没 有 出 现 数据 点 分 布 趋势 严重 偏离 回归 线 。 


通过 R 语 言 的 residuals 函 数 分 析 残 差 。 








> residuals(xy)->xy_res 
> xy_res 


1 2 3 4 5 6 7 
-1.0988557 1.7952956 -1.2565162 0.8471074 3.3223140 0.1624285 -1.0988557 


8 9 
-@.9411952 -1.7317228 








残 差 计算 的 方式 为 ; REINER NY, otk oe h AE Si 
Ae ERE ROR ea (ey, O at ea 
Be ee FREAR, CA EMAA, H 
Fo 生 质 
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人 op 
a 3 即 3.3223140， 最 小 为 0.1624285， 是 第 
| EE o 


SER ere 人 
差 的 效应 。 残 差 平方 和 是 衡量 拟 合 优 度 的 重要 标准 ， 它 的 值 越 小 ， 说 明 拟 合 效果 越 好 。 通 
迁 下 侧 代 筷 计算 ， 线 性 复 刚 拟 合 尼 的 残 关 平方 各 为 22 .68334 














> sum(xy_res*xy_res) 
[1] 22.88334 





最 后 ， 分 析 残 差分 布 、 标 准 残 差 及 标准 残 差 图 。 
Dar 如 果 数 据 拟 合 模型 效果 较 
i 那么 残 差 6 应 遵从 正 态 分 布 N(0，o2”)， 通 过 绘制 QQ 图 观察 残 差 数 据 是 否 符合 正 态 分 

















> qqnorm(xy_res) 
> qqline(xy_res) 





观察 残 差 分 布 QQ 图 ， 如 岁 9-18 所 还， Pe Ae E 数据 点 基本 
在 直线 附近 ， 回 归 效 泉 较 理想 ， 但 仍 不 是 非常 理 
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R Graphics: Device 2 (ACTIVE) 








图 9-17 女 大 学 生 身 高 体重 数据 的 回归 线 
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图 9-18 ” 残 差 分 布 QQ 图 


标准 残 差 就 是 〈 残 差 6- 残 差 的 均值 ) / 残 差 的 标准 差 ， 用 8* 表 示 。 下 面 通过 R 语 言 的 
rstandard 函 数 计 算 身 高 体重 拟 合 模型 的 标准 残 差 ， 同 时 绘制 标准 残 差 图 ， 图 9-19 所 示 。 





> rstandard(xy)->std 人 res 

> Std_xy_res 2 3 4 5 6 7 -0.6696 
-0.5591209 -1. jar 

> plot(x,std_xy_res) 

> abline(h=0) 


标准 残 差 图 是 以 拟 合 模型 的 自 变量 为 横 坐 标 ， br tee SERS 将 每 一 个 自 变 
量 的 标准 残 差 描述 在 该 平面 坐标 上 ， 形 成 图 形 ， 实 验 点 的 标准 残 差 落 在 RERI (-2， 
2) 区 间 以 外 的 概率 <0.05， Ae, 实验 点 的 标准 化 残 差 落 在 (-2, 2) 区 间 以 外 ， 可 在 95% 
置信 度 将 其 判 为 异常 实验 点 。 置 信 度 也 称 置信 水 平 ， 抽 样 不 可 能 抽取 全 部 总 体 进行 分 析 ， 
由 于 样本 的 随机 性 ， 通过 这 些 样本 对 总 体 参数 作出 合计 时 ， 结论 总 是 不 确定 的 ， 因 此 引入 
置信 和 度 ， 用 概率 来 陈述 总 体 参 数值 落 在 样本 统计 值 某 一 区 内 的 可 能 性 。 


当 描 绘 标准 残 差 的 点 围绕 标准 残 差 等 于 0 的 直线 上 下 完全 随机 地 分 布 ， 绝 大 多 数 点 落 
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在 〈-2，+2) 的 水 平 带 状 区 间 之 中 ， 且 不 带 有 任何 系统 趋势 时 ， 则 说 明 拟 合 模型 对 原 观 测 
值 “ 即 样本 ) 的 拟 合 情 况 良好 ， 如 图 9-20 所 示 。 


R Graphics: Device 2 (ACTIVE) 





图 9-19 ”身高 体重 标准 残 差 图 
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19-20 WE REIREI B 
如果 拟 合 方程 原本 是 非 线性 模型 〈 曲 线 ) ， 但 拟 合 时 却 采 用 了 线性 模型 〈 直 线 ) ， 
由 
多 9- 不 。 


针对 当前 的 拟 合 模型 ， 样 本 数据 中 如 果 出 现 了 异常 点 ， 它 们 会 远离 大 多 数 数据 点 ， 
如 图 9-23 所 示 。 
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图 9-21 出 现 系统 性 偏差 的 标准 残 差 图 QD) 
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图 9-22 HBL AR Se PE mE ERE RO 
此 外 ， 如 果 拟 合 不 充分 ， 很 多 点 会 落 在 〈-2，+2) 的 水 平 带 状 区 间 之 外 ， 如 图 9-24 所 
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图 9-23 ”异常 点 
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图 9-24 ” 拟 合 不 充分 
” 根据 标准 残 差 图 的 相关 知识 ， 观 察 图 9-19 所 示 的 身高 体重 标准 残 差 图 ， 可 得 出 以 下 


Zw: 








HERAA C2, +2) 的 水 平 带 状 区 间 内 ， 因 此 模型 拟 合 较 充分 。 


:数据 点 分 布 和 均匀 ， 但 没有 达到 随机 均匀 分 布 的 状态 。 此 外 ， 部 分 数据 点 还 是 呈现 
某 种 曲线 波动 形状 ， 有 少许 系统 性 偏差 ， 因 此 可 能 采用 非 线 性 拟 合 效 果 会 更 好 。 


) 大 学 EAR VEER TE ARES KE A SiR EF AB, 再 次 仔 
POTEA, 数据 点 呈现 上 凸 的 递增 曲线 分 布 ， 可 对 身高 与 体重 的 关系 应 
线性 模型 ， 也 许 效果 会 比 直线 好 ， 因为 曲线 更 贴近 它 的 分 布 趋势 。 那么 选用 哪个 非 线 
学 函数 比较 适合 呢 ? 观察 前 面 列 举 的 常见 函数 图 像 ， 可 发 现 活 函数 比较 适合 ， 尤 其 是 
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y=x l2 的 函数 图 像 ， 也 呈现 上 四 且 递 增 趋 势 ， eR ye RA 个 参数 需要 进 行 
变形 ， 在 函数 尾部 加 上 截 距 b， 使 函数 图 像 能 在 Y 轴 整体 上 下 移动 ， 这 样 ， 就 拥有 了 两 

可 调节 参数 ， 形 成 的 拟 合 方程 更 灵活 和 适用 。 








ge 




















细心 的 读者 肯定 发 现 了 ， 加 上 截 距 后 ， 第 函数 y=xa 变 成 了 多 项 式 函 数 y=xa +b, Alt 
将 非 线性 拟 合 模型 假设 为 y=xa +b 的 多 项 式 方程 。 
首先 ， 显 示 自 变量 和 因 变 量 数据 。 























> X[1] 160 165 158 172 159 176 160 162 171 
> 


y 
[1] 58 63 57 65 62 66 58 59 62 








接着 ， 通 过 nls 函 数 建 立 非 线性 拟 合 模型 ， 并 通过 summary 函 数 分 析 该 模型 。 
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> nls(y ~ Const + x^A)->nlmod 
> summary(n1mod) 
Formula: y ~ Const + XAA 
Parameters: 
Estimate Std. Error t value Pr(>|t|) 
Const -19.66594 15.09467 -1.303 0.234 
A 0.86036 0.03657 23.523 6.37e-08 *** 


Signif. codes: ©“ 


KKK: 


0.001 * 


Kk 


1 

Residual standard error: 1.808 on 7 degrees of freedom 
Number of iterations to convergence: 4 
Achieved convergence tolerance: 5.78e-06 





然后 ， 计 算 残 差 ， 分 析 残 差 平 方 和 。 





> residuals(nlmod) ->nlxy_res 

> nlxy_res 

[1] -1.0986204 1.7882691 -1.2508068 0.8448399 3.3251002 0.1704208 -1.0986204 -0.9449555 -1.7 
attr(,"label") 

[1] "Residuals" 

> sum(nlxy_res*nlxy_res) 

[1] 22.88108 





上 述 代码 计算 得 出 的 残 差 平方 和 为 22.88108， 比 刚才 应 用 线性 拟 合 的 残 差 平 方 和 
22.88334 稍 小 些 ， 可 见 非 线性 模型 更 适合 拟 合 本 例 中 的 身高 体重 数据 。 


下 面 ， 绘 制 残 差 的 QQ 图 ， 如 图 9-25 所 示 。 从 QQ 图 中 ， 可 看 出 : 残 差 8 分 布 接近 正 态 
分 布 ， Sue ORK HEM 





> qqnorm(nlxy_res) 
> qqline(nlxy_res) 





接着 ， 计 算 标 准 残 差 ， 将 计算 结果 存 入 std_nlxy_res。 





> (nlxy_res-mean(nlxy_res))/sd(nlxy_res)->std nlxy_res 
> std_nlxy_res[1] -0.6496072 1.0574063 -0.7395947 0.4995580 1.9661322 0.1007751[7] -0.649607 
[1] "Residuals" 
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绘制 标准 残 差 图 ， 如 图 9-26 所 示 。 





> plot(x,std_nlxy_res) 
> abline(h=0) 





通过 绘制 图 9-26 所 示 的 标准 残 差 图 ， 应 用 summary 函 数 对 非 线性 模型 进行 4 分 析 ， 以 及 
计算 残 差 平 方 和 与 标准 残 差 ， 可 得 出 以 下 结论 : 


R Graphics: Device 2 (ACTIVE) 


Normal Q-Q Plot 
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图 9-25 RAMQQAI 
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图 9-26 身高 体重 非 线 性 模型 标准 残 差 图 
人 


型 拟 
` 图 9-26 中 数据 点 分 布 较 均 匀 ， 拟 合 效果 民 好 。 
` 残 差 平方 和 比 线性 模型 小 ， 非 线性 模型 更 适 于 描述 女 大 学 生 身 高 与 体重 的 关系 。 


. 非 线 性 拟 合 模型 为 v=x0.86036 -19.66594。 
最 后 ， 观 察 一 下 拟 合 预测 数据 以 及 拟 合 效果 图 ， 如 图 9-27 所 示 。 
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图 9-27 拟 合 效 果 图 





> predict (nlmod) 

[1] 59.09862 61.21173 58.25081 64.15516 58.67490 65.82958 59.09862 59.94496 
[9] 63.73571 

> plot(x,y) 

> lines(x, predict(nlmod), col = 2) 








不 要 把 图 9-27 中 HATRET RER, 通过 分 析 predictalmod 的 执行 结果 及 得 到 的 
非 线性 拟 合 方程 可 看 出 ， 拟 合 预测 点 的 位 置 在 一 条 曲线 上 ， 但 位 置 相差 不 大 。 


仔细 观察 图 9-27〈 非 线性 拟 合 ) 与 图 9-17《 线 性 拟 合 ) 的 拟 合 线 ， 可 以 看 出 ， 图 9-27 
所 示 的 确实 是 一 条 曲线 。 











9.1.2 ”神经 网 络 拟 合 法 


数据 分 布 如 果 近 似 一 条 直线 ， 可 以 使 用 线性 神经 元 成 数 
介绍 的 Rosenblatt 感 知 器 ; 如 果 呈 曲线 ， 可 使 用 多 层 感 Age KII EIET 以 合 。 上 一 节 
讲述 了 通过 观察 数据 分 布 图 像 ， 估 计 非 线性 回归 对 应 的 数学 方程 介绍 的 神经 网 
络 方法 与 之 不 同 ， 它 具有 学 习 未 知 数据 规律 的 能 力 。 


通过 样本 对 神经 网 络 进行 训练 的 过 程 就 是 在 输入 与 输出 数据 之 问 建 立 映射 的 过 程 。 
训练 完成 后 ， 神 经 网 络 就 已 定型 ， 网 络 内 部 的 权 值 矩阵 和 神经 元 的 激活 函数 共同 组 成 了 映 
射 组 件 ， 这 些 组 件 代 替 了 数学 方程 。 
1. 常 见 数学 函数 拟 合 

理论 上 来 说 ， 有 了 神经 元 作为 映射 组 件 ， 神 经 网 络 可 以 对 数据 之 间 的 任何 规律 进行 
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学 习 和 模仿 。 下 面 是 神经 网 络 对 上 一 节 介 绍 的 几 个 数学 函数 进行 拟 合 的 效果 。 


D sin 函 数 拟 合 。 顾 名 思 义 ，sin 函 数 拟 合 就 是 使 用 一 组 数据 x 作为 输入 ， 通 过 神经 网 
络 建立 模型 ， 其 输出 值 为 sin(x)。 可 通过 使 用 Python 编写 神经 网 络 ， 实 现 sn 函数 拟 合 。 


在 华章 网 站 下 载 本 书 的 资源 包 ， 打 开 里 面 的 文档 < 多 层 感知 器 神经 网 络 源 代 码 .doc”。 
下 面 将 在 该 文档 中 源 代码 的 基础 上 进行 修改 ， 实 现 非 线性 拟 合 。 


首先 ， 随 机 生成 500 个 x 值 ， 同 时 计算 这 些 样本 对 应 的 目标 值 。 代 码 如 下 : 








#!/usr/bin/env python 

#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 

#9-1.py 

import numpy as np 

import matplotlib.pyplot as plt 
import random 

import copy 

isdebug=False 

#X 和 


d 样 本 初始 化 


train_x =[] 

d=[] 

for yb_i in xrange(0,500): 
train_x.append([np.random.rand()*4*np.pi-2*np.pi]) 
for yb_i in xrange(0,500): 
d.append(np.sin(train_x[yb_i] )) 





然后 设置 相关 参数 。 代 码 如 下 : 





warray_txn=len(train_x[0]) 
warray_n=warray_txn*4*2 
# 基 本 参数 初始 化 


oldmse=10**100 
err=[] 
maxtrycount=800 
mycount=0.0 

if maxtrycount>=20: 
r=maxtrycount/10 
else: 
r=maxtrycount/2 
#Sigmoid 函 数 


ann_sigfun=None 
ann_delta_sigfun=None 
# 总 层 数 初 始 化 


alllevel_count=int (warray_txn*4*1.5+1) 
# 非 线 性 层 数 初始 化 


hidelevel count=alllevel count-1 
# 学 习 率 参数 


learn_r0=0.002 
learn_r=learn_rO *1.5 
# 动 量 参数 
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train_a0=learn_r0*1.2 
train_a0*=0.001 


train_a= 


train_a0 


expect_e=0.02 





接着 ， 对 数据 进行 预 处 理 ， 并 生成 初始 权 值 矩 阵 。 





# 对 输入 数据 进行 预 处 理 


ann_max= 


[] 


for m_ani in xrange(0,warray_txn): 
temp_x=np.array(train_x) 


ann_ 
ann_max= 


max.append(np.max(temp_x[:,m_ani])) 
np.array(ann_max) 


def getnowsx(mysx,in_w): 


def get 


'"' 生 成 本 次 的 扩 维 输入 数据 





global warray_n 

mysx=np.array(mysx) 

x_end=[] 

for i in xrange(0,warray_n): 
x_end.append(np.dot(mysx, in_w[:,i])) 

return x_end 

inlw(my_train_max,w_count,myin_x): 





'"! 计 算 对 输入 数据 预 处 理 的 权 值 


# 对 随机 生成 的 多 个 权 值 进行 优化 选择 ， 选 择 最 优 的 权 值 





global warray_txn 
global warray_n 
mylw=[] 

y_in=[] 

# 生 成 测试 权 值 





my1lw=np. random. rand(w_count, warray_txn,warray_n) 

for ii in xrange (0,warray_txn): 
mylw[:,ii, :]=mylw[:,ii, :]*1/float(my_train_max[ii])-1/float(my_ 
train_max[ii])*0.5 

# 计 算 输出 


for i in xrange(0,w_count): 
y_in.append([]) ; 
for xj in xrange(0,len(myin_x)): 
y_in[i] .append(getnowsx(myin_x[xj],mylw[i]) ) 
# 计 算 均 方差 


mymin=10**5 
mychoice=0 
for i in xrange(0,w_count): 
myvar=np.var(y_in[i]) 
if abs(myvar-1)<mymin: 
mymin=abs(myvar -1) 
mychoice=i 
数据 整理 的 权 值 矩阵 
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return mylw[mychoice] 


mylnww=get_inlw(ann_max, 300, train_x) 
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def get_inputx(mytrain_x,myin_w): 
"将 训练 数据 通过 输入 权 数 ， 扩 维 后 形成 输入 数据 


end_trainx=[] 
for i in xrange(0,len(mytrain_x)): 
end_trainx.append(getnowsx(mytrain_x[i],myin_w) ) 
return end_trainx 
x=get_inputx(train_x, mylnww) 
def get_siminx(sim_x): 
global mylnww 
myxx=np.array(sim_x) 
return get_inputx(myxx, mylnww) 
def getlevelw(myin_x,wo_n,wi_n,w_count): 
" “计算 一 层 的 初始 化 权 值 矩阵 


mylw=[] 
y_in=[] 
# 生 成 测试 权 值 





mylw=np. random. rand(w_count,wi_n,wo_n) 
mylw=mylw*2. -1 
# 计 算 输 出 


for i in xrange(0,w_count): 
y_in.append([]) 
for xj in xrange(0,len(myin_x)): 
x_end=[] 
for myii in xrange(0,wo_n): 
x_end.append(np.dot(myin_x[xj],mylw[i, :,myii])) 
y_in[i].append(x_end) 
# 计 算 均 方差 


mymin=10**3 
mychoice=0 
for i in xrange(0,w_count): 
myvar=np.var(y_in[i]) 
if abs(myvar-1)<mymin: 
mymin=abs(myvar -1) 
mychoice=i 
数据 整理 的 权 值 矩阵 
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csmylw=mylw[mychoice] 
return csmylw, y_in[mychoice] 
ann_w=[] 
def init_annw(): 
global x 
global hidelevel_count 
global warray_n 
global d 
global ann_w 
ann_w=[] 
lwyii=np.array(x) 
for myn in xrange(0,hidelevel_count): 
# 层 数 


ann_w.append([]) 
if myn==hidelevel_count-1: 
for iii in xrange(0,warray_n): 
ann_w[myn].append([]) 
for jjj in xrange(0,warray_n): 
ann_w[myn][iii].append(0.0) 
elif myn==hidelevel_count-2: 
templw, lwyii=getlevelw(lwyii, len(d[0]),warray_n,10) 
for xii in xrange(0,warray_n): 














wawai bbt .cam DEE ATCHHE 























ann_w[myn].append([]) 
for xjj in xrange(0,len(d[0])): 
ann_w[myn] [xii] .append(templw[xii, xjj]) 
for xjj in xrange(len(d[0]),warray_n): 
ann_w[myn][xii].append(0.0) 
else: 
templw, lwyii=getlevelw(lwyii, warray_n,warray_n,10) 
for xii in xrange(0,warray_n): 
ann_w[myn].append([]) 
for xjj in xrange(0,warray_n): 
ann_w[myn] [xii] .append(templw[xii, xjj]) 
ann_w=np.array(ann_w) 
def generate_lw(trycount): 
global ann_w 
print uU" 产 生 权 值 初始 矩阵 





meanmin=1 
myann_w=ann_w 
alltry=30 
tryc=0 
while tryc<alltry: 
for i_i in range(trycount): 
print ".", 
init_annw() 
if abs(np.mean(np.array(ann_w) ))<meanmin: 
meanmin=abs(np.mean(np.array(ann_w) ) ) 
myann_w=ann_w 
tryct=1 
if abs(np.mean(np.array(myann_w) ) )<0.01: break 
ann_w=myann_w 
print 
print u" BURIE PFI 





:%f"%(np.mean(np.array(ann_w) ) ) 
print u" SUE HEME A 22 


:%F"%(np.var(np.array(ann_w) ) ) 
generate_lw(15) 





下 面 ， 对 所 有 样本 数据 进行 反复 训练 ， 直 到 误差 降 到 期 望 值 为 止 。 单 个 样本 的 训练 


过 程 如 下 : 





def sample_train(myx,myd,n,sigmoid_func, delta_sigfun): 
'"' 一 个 样本 的 前 向 和 后 向 计算 


global ann_yi 

global ann_delta 
global ann_w 

global ann_wj0 

global ann_y0 

global hidelevel_count 
global alllevel_count 
global learn_r 

global train_a 

global ann_oldw 
level=hidelevel_count 
# 清 空 


yi 输出 信号 数组 


hidelevel=hidelevel_count 

alllevel=alllevel_count 

for i in xrange(0,alllevel): 
# 第 一 维 是 层 数 ， 从 
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0 开始 


for j in xrange(0,n): 
# 第 二 维 是 神经 元 


ann_yi[i][j]=0.90 
ann_yi=np.array(ann_yi) 
yi=ann_yi 


# 清 空 


de1lta 和 矩阵 


for i in xrange(0,hidelevel-1): 
for j in xrange(0,n): 
ann_delta[i][j]=0.0 
delta=ann_delta 
# 保 留 


W 的 拷贝 ， 以 便 下 一 次 迭代 


ann_oldw=copy .deepcopy(ann_w) 
oldw=ann_oldw 
# 前 向 计算 





if isdebug:print u" 前 向 计算 中 


# 对 输入 变量 进行 预 处 理 


myo=np.array([]) 
for nowlevel in xrange(0,alllevel): 


# 一 层 层 向 前 计算 


# 计 算 诱 导 局 部 域 


my_y=[] 
myy=yi[nowlevel-1] 
myw=ann_w[nowlevel-1] 
if nowlevel==0: 

# 第 一 层 隐 藏 层 


my_y=myx 
yi[nowlevel]=my_y 

elif nowlevel==(alllevel-1): 
# 输 出 层 





my_y=o_func(yi[nowlevel-1, :len(myd)]) 
yi[nowlevel, :len(myd) ]=my_y 

elif nowlevel==(hidelevel-1): 
# 最 后 一 层 输出 层 


for i in xrange(0,len(myd)): 
temp_y=sigmoid_func(np.dot(myw[:,i],myy) ) 
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my_y.append(temp_y) 
yi[nowlevel, :len(myd) ]=my_y 





else: 
# 中 间 隐 藏 层 
for i in xrange(0,len(myy)): 
temp_y=sigmoid_func(np.dot(myw[:,i],myy) ) 
my_y.append(temp_y) 
yi[nowlevel]=my_y 
if isdebug: 


print u"****** 本 样本 训练 的 输出 矩阵 


KKKKKKKKKEM 


print yi 
rint RR ERRRER EAE RR ER a E E ER ERE EER EEN 


# 计 算 误差 与 均 方 误差 





# 因 为 线性 输出 层 为 直接 复制 ， 所 以 取 非 线性 隐藏 输出 层 的 结 


myo=yi[hidelevel-1][:len(myd) ] 
myo_end=yif[alllevel-1][:len(myd) ] 
mymse=get_e(myd,myo_end) 

# 反 向 计算 





# 输 入 层 不 需要 计算 


delta, 输出 层 不 需要 计算 


if isdebug:print u" 反 向 计算 中 





# 计 算 


delta 
for nowlevel in xrange(level-1,0,-1): 

if nowlevel==level-1: 
mydelta=delta[nowlevel] 
my_n=len(myd) 

else: 
mydelta=delta[nowlevel+1] 
my_n=n 

myw=ann_w[nowlevel ] 

if nowlevel==level-1: 
# 输 出 层 


mydelta=delta_sigfun(myo,myd, None, None, None, None, None) 
## mydelta=mymse*myo 
elif nowlevel==level-2: 
# 输 出 隐藏 层 的 前 一 层 ， 因 为 输出 结果 和 前 一 层 隐 藏 层 的 神经 元 数目 可 能 存在 不 一 致 的 情况 ， 所 以 单独 处 理 ， 
传输 相当 于 输出 隐藏 层 的 神经 元 数目 的 数据 














mydelta=delta_sigfun(yi[nowlevel],myd, nowlevel, level- 
1,my_n,mydelta[:len(myd)],myw[:, :len(myd)]) 
else: 
mydelta=delta_sigfun(yi[nowlevel],myd, nowlevel, level- 
1,my_n,mydelta, myw) 
delta[nowlevel] [:my_n]=mydelta 
# 计 算 与 更 新 权 值 
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for nowlevel in xrange(level-1,0,-1): 
# 每 个 层 的 权 值 不 一 样 


> 








if nowlevel==level-1: 
# 输 出 层 





my_n=len(myd) 

mylearn_r=learn_r*0.8 

mytrain_a=train_a*1.8 
elif nowlevel==1: 

# 输 入 层 


my_n=len(myd) 

mylearn_r=learn_r*0.9 

mytrain_a=train_a*0.8 
else: 

















# 其 他 层 





my_n=n 
mylearn_r=learn_r 
mytrain_a=train_a 
pre_level_myy=yi[nowlevel-1] 
pretrain_myww=oldw[nowlevel-1] 
pretrain_myw=pretrain_myww[:, :my_n] 
# 第 二 个 调整 参数 


temp_i=[] 
for i in xrange(0,n): 
temp_i.append([]) 
for jj in xrange(0,my_n): 
temp_i[i].append(mylearn_r*delta[nowlevel, jj]*pre_ 
level_myy[i]) 
temp_rs2=np.array(temp_i) 
temp_rsi=mytrain_a*pretrain_myw 
# 总 调整 参数 


temp_change=temp_rsi+temp_rs2 
my_ww=ann_w[nowlevel-1] 
my_ww[:, :my_n]+=temp_change 
if isdebug: 
print 一 一 一 一 一 一 一 一 一 一 一 一 一 人 
print u" *** BURKE 


KEK 


print ann_w 
print uU"*** 梯 度 矩 阵 


kkk 


print delta 
print Isasara 
return mymse 





RITARIA, WRAL ESI SF O.02LF, WATESE, WFR: 





41 次 训练 
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ERRA 开始 第 


0.019359 训 练 成 功 ， 正 在 进行 检验 





最 后 ， 进 行 仿真 测试 。 下 面 是 一 个 样本 值 的 仿真 计算 过 程 。 





def simulate(myx, sigmoid_func,delta_sigfun): 
”一 个 样本 的 仿真 计算 





print u" 仿 真 计算 中 


global ann_yi 

global ann_w 

global ann_wj0 

global ann_y0 

global hidelevel_count 
global alllevel_count 
global d 

global mylnww 
myd=d[0] 
myxX=np.array(myx) 
n=len(myx) 

# 清 空 


Yi 输出 信号 数组 


hidelevel=hidelevel_count 

alllevel=alllevel_count 

for i in xrange(0,alllevel): 
# 第 一 维 是 层 数 ， 从 


6 开始 


for j in xrange(0,n): 
# 第 二 维 是 神经 元 


ann_yi[i][j]=0.9 
ann_yi=np.array(ann_yi) 
yi=ann_yi 
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# 前 向 计算 


myy=np.array([]) 
for nowlevel in xrange(0,alllevel): 


# 一 层 层 向 前 计算 














# 计 算 诱导 局 部 域 


my_y=[] 
myy=yi[nowlevel-1] 
myw=ann_w[nowlevel-1] 
if nowlevel==0: 

# 第 一 层 隐 藏 层 











my_y=myx 
yi[nowlevel]=my_y 

elif nowlevel==(alllevel-1): 
# 线 性 输出 层 


my_y=o_func(yi[nowlevel-1, :len(myd)]) 
yi[nowlevel, :len(myd)]=my_y 

elif nowlevel==(hidelevel-1): 
# 最 后 一 层 隐 藏 输出 层 





for i in xrange(0,len(myd)): 
temp_y=sigmoid_func(np.dot(myw[:,i],myy) ) 
my_y.append(temp_y) 

yi[nowlevel, :len(myd) ]=my_y 








else: 

# 中 间 隐 藏 层 

# 中 间 隐 藏 层 需要 加 上 偏 置 

for i in xrange(0,len(myy)): 
temp_y=sigmoid_func(np.dot(myw[:,i],myy)) 
my_y.append(temp_y) 

yi[nowlevel]=my_y 

if isdebug: 
print 和 


print u"*** 权 值 和 矩阵 


KKK 


print ann_w 
print uU"*** 输 出 矩阵 


KKK 


print yi 


p 
return yi[alllevel-1, :len(myd) ] 








为 了 验证 效果 ， 绘 制 数据 拟 合 效果 和 误差 曲线 ， ae -28 所 示 。 图 9-28 的 上 部 是 拟 合 
效果 图 ， 目 标 值 和 预测 值 很 接近 ， 下 部 是 误差 曲线 ， 下 降 平 滑 。 


2) 0.6sin( 切 函数 神经 网 络 拟 合 。 下 面 尝试 实现 稍 复杂 数学 函数 的 拟 合 ， 比 如 
y=0.6sin(x)。 这 里 的 Python 实现 代码 与 前 面相 同 ， 因 此 ， 只 是 在 样本 数据 初始 化 代码 段 进 
行 了 修改 示例 如 下 ; 
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#!/usr/bin/env python 

#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 

#9-2.py 

import numpy as np 

import matplotlib.pyplot as plt 
import random 

import copy 

isdebug=False 

#XAll 


d 样 本 初始 化 


train_x =[] 
d=[] 
for yb_i in xrange(0,500): 
train_x.append( [np.random.rand()*4*np.pi-2*np.pi]) 
for yb_i in xrange(0,500): 
d.append(np.sin(train_x[yb_i])*0.6) 





经 


(=f 


过 71 次 训练 ， 神 经 网 络 的 收敛 目标 达到 ， 也 就 是 说 误差 率 达 到 了 期 望 值 。 














0 .019350 训 练 成 功 ， 正 在 进行 检验 





图 9-29 为 程序 绘制 的 拟 合 效 果 和 误差 曲线 图 。 
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图 9-28 sin 函数 神经 网 络 拟 合 
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图 9-29 ”0.6sin(X) 函 数 神经 网 络 拟 合 ( 附 彩 图 ) 


3) 0.5sin(X)+0.5cos(x) 函 数 拟 合 。 前 两 个 例子 使 用 了 本 书 资 源 包 所 示 的 Python 代 码 。 
下 面 使 用 Neurolab 库 实现 对 0.5sin(x)+0.5cos(x) 的 拟 合 。 代 码 如 下 : 





#!/usr/bin/env python 
#-*- coding: utf-8 -*- 


sin*0.5+cos*0.5 

import neurolab as nl 

import numpy as np 

import matplotlib.pyplot as plt 
isdebug=False 

#X 和 


d 样 本 初始 化 


train x =[] 
d= 


samplescount=1000 
myrndsmp=np. random. rand(samplescount ) 
for yb_i in xrange(0,samplescount ) : 
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train_x.append([myrndsmp[yb_i]*4*np.pi-2*np.pi]) 
for yb_i in xrange(0,samplescount ) : 
d.append(np.sin(train_x[yb_i])*0.5+np.cos(train_x[yb_i])*0.5) 
myinput=np.array(train_x) 
mytarget=np.array(d) 
bpnet = nl.net.newff([[-2*np.pi, 2*np.pi]], [5, 1]) 
err = bpnet.train(myinput, mytarget, epochs=800, show=100, goal=0.02) 
simd=[] 
for xn in xrange(0,len(train_x)): 
simd.append(bpnet.sim([train_x[xn]])[0][9]) 
temp_x=[] 
temp_y=simd 
temp_d=[] 
i=0 
for mysamp in train_x: 
temp_x.append(mysamp[0] ) 
temp_d.append(d[i] [0] ) 
i+=1 
x_max=max(temp_x) 
x_min=min(temp_x) 
y_max=max(max(temp_y),max(d))+0.2 
y_min=min(min(temp_y),min(d))-0.2 
plt.xlabel(u"x" 
plt.xlim(x_min, x_max) 
plt.ylabel(u"y") 
plt.ylim(y_min, y_max) 
lp_x1 = temp_x 
lp_x2 = temp_y 
lp_d = temp_d 
plt.plot(lp_x1, lp_x2, 'r*') 
plt.plot(1lp_x1,1p_d, 'bo') 
plt. show() 





800 次 训练 后 ， 拟 合 效 果 较 好 ， 如 图 9-30 所 示 。 


> 0.0 


—6 一 4 = 0 2 


图 9-30 ”0.5sin(x)+0.5cos(x) 的 拟 合 
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2. 钢 包 使 用 次 数 与 容积 模型 拟 合 


表 9-3 是 钢 包 使 用 次 数 与 容积 实测 数据 ， SRD i 在 输入 与 输出 数据 之 
间 可 建立 非 线性 关系 。 这 里 用 神经 网 络 建立 数据 拟 合 模型 


9-3 钢 包 使 用 次 数 与 容积 实测 数据 





使 用 次 数 x 容积 y 
2 106.42 
3 108.2 
4 109.38 
3 109.3 
7 110 
8 109.93 

10 110.49 
11 110.59 
14 110.6 
15 110.9 
16 110.7 
18 111 

19 111.2 


N 下 面 答 试 应 用 神经 网 络 完成 以 上 数据 拟 合 任务 ， 这 里 调用 Neurolab 库 ， 用 Python 实 
i o 


首先 读 取 数 据 文件 。 代 码 如 下 : 





#!/usr/bin/env python 
#-*- coding: utf-8 
#code:myhaspl@qq.com 
#9-4.py 

import numpy as np 
import pylab as pl 
import neurolab as nl 
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print u' 正 在 处 理 中 





#X 和 


d 样 本 初始 化 


train x =[] 
d=[] 
f = open("cubage.csv") 
try: 
f_text = f.read( ) 
finally: 
f.close( ) 
x_text=f_text.split('\n') 
for line_i in xrange(0, len(x_text)): 
line=x_text[line_i] 
if line_i>1 and len(line)>0: 
train_x.append([]) 
hdata=line.split(',') 
train_x[line_i-2].append(float(hdata[0])) 
d.append([float(hdata[1])]) 





接着 ， 生 成 样本 数据 ， oo ee ， 因 此 ， 
设置 调整 系数 ， 把 输出 值 处 理 成 1 以 内 的 小 数 。 代 码 如 下 








myinput=np.array(train_x) 
mytarget=np.array(d) 
mymax=np.max(d) 
tz=(0.1**(len(str(int(mymax)))))*5 
myinput=myinput 
mytarget=tz*mytarget 





最 后 进行 训练 ， 训 练 时 可 加 入 未 知 样本 进行 测试 


# 对 未 知 样本 进行 测试 








myinputtest=[[6],[9],[17], [20]] 
testsimd= bpnet.sim(myinputtest) 
end_x=np.array(myinputtest ) 
testsimd/=tz 

end_y=testsimd 





经 过 9 次 训练 ， 达 到 了 训练 目标 ， 误 差 为 1.9713682268777952e-05。 对 神经 网 络 输出 
值 应 用 调整 系数 ， 将 其 输出 值 恢复 到 原 有 的 数值 范围 。 


程序 生成 了 拟 合 效果 图 (如 图 9-31 上 部 所 示 )》 及 误差 曲线 图 (如 图 9-31 下 部 所 示 》。. 
同时 使 用 在 样本 空 间 中 没有 出 机 的 部 分 测试 数据 6、9>》17、20 作 为 神经 网 络 的 葵 入 ， 验 证 
神经 网 络 的 训练 效果 和 拟 合 效果 。 图 中 实心 圆圈 为 未 知 测试 数据 ， 即 : 使 用 次 数 为 6、9、 
17、20 时 容积 的 预测 值 ， 星 号 为 样本 数据 。 
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error (default SSE) 
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图 9-31 钢 包 使 用 次 数 与 容积 的 神经 网 络 拟 合 
从 图 9-31 的 拟 合 效果 来 看 ， 样 本 数据 非常 接近 神经 网 络 拟 合 的 曲线 ， 说 明 曲 线 较 好 
地 反映 了 随 着 使 用 次 数 的 增加 ， 容积 的 增长 趋势 。 此 外 ， 对 在 样本 中 没 出 现 的 钢 包 使 用 次 
数 6、9、17、20， 与 之 相关 的 容积 预测 效果 不 错 。 


完整 的 Python 代码 如 下 : 





#!/usr/bin/env python. 
#-*- coding: utf-8 
o. myhaspl@qq.com 
#9-4.py 


import numpy as np 
import pylab as pl 
import neurolab as nl 
print u' 正 在 处 理 中 





#X 和 
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d 样 本 初始 化 


train_x =[] 
d=[] 
f = open("cubage.csv") 
try: 
f_text = f.read( ) 
finally: 
f.close( 
x_text=f_text.split('\n') 
for line_i in xrange(0,len(x_text) ) 
line=x_text[line_i] 
if line_i>1 and len(line)>0: 
train_x.append([]) 
hdata=line.split(',') 
train_x[line_i-2].append(float(hdata[0])) 
d.append([float(hdata[1])]) 
myinput=np.array(train_x) 
mytarget=np.array(d) 
mymax=np.max(d) 
tz=(0.1**(len(str(int(mymax)))))*5 
myinput=myinput 
mytarget=tz*mytarget 
netminmax=[0,np.max(myinput ) ] 
print u'\n 正 在 建立 神经 网 络 





bpnet = nl.net.newff([netminmax], [5, 1]) 
print u'\n 训 练 神经 网 络 中 





err = bpnet.train(myinput, mytarget, epochs=800, show=5, goal=0.0001) 
if err[len(err)-1]>0.0001: 
print u'\n 训 练 神经 网 络 失 败 


rea NOE 
else: 
print u'\n 训 练 神经 网 络 完毕 


pl.subplot(211) 

pl.plot(err) 

pl.xlabel('Epoch number') 
pl.ylabel('error (default SSE)') 
# 对 样本 进行 测试 


simd= bpnet.sim(myinput ) 
temp_x=myinput 
temp_d=mytarget 

simd/=tz 

temp_y=simd 

temp_d/=tz 

# 对 未 知 样本 进行 测试 


myinputtest=[[6], [9], [17], [20]] 
testsimd= bpnet.sim(myinputtest) 
end_x=np.array(myinputtest ) 
testsimd/=tz 

end_y=testsimd 
X_max=np.max(temp_x) 
X_min=np.min(temp_x)-5 
y_max=np.max(temp_y)+2 
y_min=np.min(temp_y) 

pl.subplot (212) 

pl.xlabel(u"x") 

pl.xlim(x_min, x_max) 
pl.ylabel(u"y") 
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pl.ylim(y_min, y_max) 

lp_x1 = temp_x 
1p_x2=temp_y 

lp_d = temp_d 
pl.plot(lp_x1, lp_x2, 'g-') 
pl.plot(end_x, end_y, 'ro' 
pl.plot(1lp_x1,1p_d, 'b*') 


TTT | 
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9.2 ”线性 滤波 





aE ay HTB ieee 于 是 鼓 皮 发 生 振动 而 发 声 ; 
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z y 小 由 声 ip X 
空气 是 最 常见 的 媒质 ， 如 水 、 fae 木材 等 媒质 都 能 传播 声音 。 
WAV 声 音 文件 为 Microsoft 公 司 开 发 的 一 种 记录 声音 的 文件 格式 ， 它 符合 
RIFF (Resource Interchan e File Format) 文件 规范 ， 音 频 格 式 未 经 过 压缩 ， 在 音质 方面 不 
会 出 现 失真 的 情况 。 它 以 指定 频率 采样 ， 比 如 每 秒 采样 44100 次 。 在 采集 声音 的 振动 状 
时 ， 它 会 使 用 模 Pe CA/D) 以 每 秒 上 万 次 的 速率 对 声波 进行 采样 ， 每 一 次 
D a YAIR, 采样 的 结果 即 为 样本 。 将 一 串 样 本 连接 起 来 ， 
HI — BPAY 
































9.2.2 ”线性 滤波 算法 过 程 





神经 网 络 既 可 以 进行 函数 拟 合 ， 也 能 对 波形 数据 进行 拟 合 。 下 面 将 输入 x 作 为 函数 的 
自 变量 ， 将 神经 网 络 输出 的 数据 y 作 HK 数 fo0 的 给 出 ， 然 后 应 用 该 拟 合 功能 进行 一 个 线性 
滤波 ， 以 实现 去 除 周 围 环境 的 噪音 ， 使 说 话 声音 更 清楚 。 


下 面 以 从 含有 音乐 的 语音 中 去 除 背景 音乐 为 例 进行 讲解 。 有 具体 算法 过 程 如 下 : 


1) 读 取 该 机 器 学 习 算 法 必需 的 两 个 素材 文件 ， 仿 有 背景 音乐 的 语 首 和 部 分 背景 首 
乐 。 细 心 的 读者 一 定 会 问 ， 既 然 已 经 有 Rae 音乐 这 个 文件 ， 那 么 直接 从 语音 的 波形 数据 减 
音乐 ， 这 样 就 完成 了 背景 音乐 的 过 滤 。 没 错 ， 但 是 不 能 直接 减 去 源 背景 音乐 。 原 因 





















































at 








eae tere Suge ASTRA E RE 乐 和 语音 进行 了 采样 ， 但 采样 过 程 很 可 能 
会 被 周边 的 音源 、 采 样 音量 等 很 多 因素 干扰 ， 导致 有 样 形成 的 音 景 音乐 波形 并 不 是 源 音 景 
音乐 的 波形 。 TUR PRENTICE een EO, 将 会 导致 滤波 后 的 语音 文件 有 杂音 且 部 分 
失真 。 我 们 要 做 的 是 干净 地 将 背景 音乐 剔除 。 











“2) 采样 器 先 采 样 一 小 段 背景 音乐 ， 然 后 再 采集 语音 文件 。 其 好 处 在 于 ;生成 了 经 过 
采样 后 的 背景 音乐 样本 ， 这 些 样本 就 是 神经 网 络 拟人 训练 样本 中 的 目标 输出 值 。 


3) 人 于 采样 背景 音乐 长 度 的 波形 
数据 ， 输 出 目标 为 采样 器 开始 采集 的 小 段 背 景 音乐 波形 数据 


4) a te te Le coe 将 源 背景 音乐 作为 未 知 样本 数据 送 
入 神经 网 络 ， 其 预测 输出 就 是 拟 合 后 的 采样 背景 音乐 。 


5) 将 混杂 有 背景 音乐 的 语音 文件 波形 数据 直接 减 去 拟 合 后 的 采样 背景 音乐 ， 得 到 去 
除 背景 音乐 的 纯净 语音 Fie 


自 适 应 线性 滤波 器 的 工作 原理 也 是 如 此 : 先 采集 一 段 背 景 噪声 ， 然 后 用 噪声 数据 进 
行 拟 合 ， 之 后 在 噪声 数据 和 背景 ELEIT, 种 映射 关系 ， 最 后 ， 人 可 以 通过 该 系统 
传送 语音 ， 说 话 周围 环境 产生 的 背景 噪声 将 被 过 滤 。 










































































9.2.3 ”滤波 Python 实现 
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下 面 用 Python 实现 上 述 步 又。 
1) 读 取 声 音素 材 ， 代 码 如 下 : 





#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
#9-5.py 

import numpy as np 

import wave 

import pylab as pl 

import copy 

print 'working...' 

print "read wav data...." 


err=[] 

# 打开 

WAV 文 档 

f = wave.open(r"speak.wav", "rb") 

fo = wave.open(r"wait_jg.wav", "wb") 
fi=wave.open(r"back.wav", "rb") 
fend=wave.open(r"end_jg.wav", "wb") 


# 读 取 波 形 数据 


# (nchannels, sampwidth, framerate, nframes, comptype, compname) 
params = f.getparams() 

nchannels, sampwidth, framerate, nframes = params[:4] 

str_data = f.readframes(nframes) 

fi_params=fi.getparams() 

fi_nframes = fi_params[3] 

fi_str_data=fi.readframes(fi_nframes) 

# 将 波形 数据 转换 为 数组 ， 并 更 改 





print "update wav data...." 
wave_data = np.fromstring(str_data, dtype=np.short) 
fi_wave_data= np.fromstring(fi_str_data, dtype=np.short) 








) 复制 波形 ， 在 一 个 随机 的 基数 基础 上 ， 将 背景 音乐 的 振幅 (音量 》 HoF 
n KSERA 前 面 预 留 一 段 经 过 波形 调整 后 的 背景 音乐 ， 以 供 线性 神经 网 络 拟 合 





emptywdata=np.zeros(framerate, dtype=np.short) 
new_wave_data=np.hstack((emptywdata, wave_data, wave_data, wave_data, wave_data, wave_data, wave_data, 
wave_data =copy.deepcopy(new_wave_data) 

nframes*=8 

nframes+=framerate/2 

temp_wavedata=np.hstack((fi_wave_data, fi_wave_data) )[:len(new_wave_data) ] 
backrnd=np. random. rand(len(new_wave_data) )*10-5 
backbase=np.random.rand()*2+1 
temp_wavedata=temp_wavedata*backbase+backrnd 
new_wave_data=temp_wavedata+new_wave_data 
new_wave_data=np.array(new_wave_data) 

new_wave_data =new_wave_data.astype(wave_data.dtype) 
new_str_data=new_wave_data.tostring() 








3) F 合 数据 ， 去 除 背 景 音 H ZN o 





jg_wave_data=copy .deepcopy(new_wave_data) 
jg_temp_wavedata=np.hstack((fi_wave_data, fi_wave_data) )[:len(new_wave_data) ] 
jg_temp_wavedata=jg_temp_wavedata[:len(new_wave_data) ]*w[1]+w[0] 
jg_wave_data=jg_wave_data-jg_temp_wavedata 

for jg_i in xrange(0,len(jg_wave_data) ): 
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if abs(jg_wave_data[jg_i])<500: 
jg_wave_data[jg_i]=0 

jg_wave_data[:framerate]=0 
jg_wave_data =jg_wave_data.astype(wave_data.dtype) 
jg_str_data=jg_wave_data.tostring() 
print "save output wav...." 
fend.setnchannels(nchannels) 
fend.setframerate(framerate) 
fend.setsampwidth(sampwidth) 
fend.writeframes(jg_str_data) 








完整 的 代码 如 下 : 





#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
#9-5.py 

import numpy as np 

import wave 

import pylab as pl 

import copy 

print 'working...' 

print "read wav data...." 


err=[] 

# 打开 

WAV 文 档 

f = wave.open(r"speak.wav", "rb" 

fo = wave.open(r"wait_jg.wav", "wb") 
fi=wave.open(r"back.wav", "rb") 
fend=wave.open(r"end_jg.wav", "wb") 


# 读 取 波 形 数据 


# (nchannels, sampwidth, framerate, nframes, comptype, compname) 
params = f.getparams() 

nchannels, sampwidth, framerate, nframes = params[:4] 

str_data = f.readframes(nframes) 

fi_params=fi.getparams() 

fi_nframes = fi_params[3] 

fi_str_data=fi.readframes(fi_nframes) 

# 将 波形 数据 转换 为 数组 ， 并 更 改 





print "update wav data...." 

wave_data = np.fromstring(str_data, dtype=np.short) 
fi_wave_data= np.fromstring(fi_str_data, dtype=np.short) 
# 复 制 并 将 背景 音乐 的 振幅 


) 在 一 个 随机 的 基数 基础 上 稍微 变动 后 ， 与 语音 合并 








# 前 面 预 留 一 段 经 过 波形 调整 后 的 背景 音乐 ， 以 供 线性 神经 网 络 拟 合 














emptywdata=np.zeros(framerate, dtype=np.short) 
new_wave_data=np.hstack((emptywdata, wave_data, wave_data, wave_data, wave_data, wave_data, wave_data, 
wave_data =copy.deepcopy(new_wave_data) 

nframes*=8 

nframest+=framerate/2 

temp_wavedata=np.hstack((fi_wave_data, fi_wave_data) )[:len(new_wave_data) ] 

backrnd=np. random. rand(len(new_wave_data) )*10-5 

backbase=np.random.rand()*2+1 

temp_wavedata=temp_wavedata*backbasetbackrnd 
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new_wave_data=temp_wavedata+new_wave_data 
new_wave_data=np.array(new_wave_data) 

new_wave_data =new_wave_data.astype(wave_data.dtype) 
new_str_data=new_wave_data.tostring() 

# 写 波形 数据 参数 


print "save mix wav files...." 
fo.setnchannels(nchannels) 
fo.setframerate(framerate) 
fo.setsampwidth(sampwidth) 
fo.writeframes(new_str_data) 
HAC PE SEI HT MRS 
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r audio_i in xrange(0,framerate/2): 
if fi_wave_data[audio_i]!=0.: 
x.append([]) 
x[ii].append(1) 
x[ii].append(fi_wave_data[audio_i]) 
d.append(new_wave_data[audio_i]) 
ii+=1 
if ii>100: 
break 
x=np.array(x) 
d=np.array(d) 
w=np.random.rand(2)*np.mean(x)#np.array([b, 0] ) 
expect_e=15 
maxtrycount=10000 
mycount=0 
def sgn(v): 
return v 
def get_v(myw, myx): 
return sgn(np.dot(myw.T, myx) ) 
def neww(oldw, myd,myx,a): 
mye=get_e(oldw, myx, myd) 
a=a0/(1+float(mycount)/r) 
return (oldwta*mye*myx, mye) 
def get_e(myw, myx, myd): 
return myd-get_v(myw, myx) 
while True: 
mye=0. 
i=0 
for xn in x: 
wy e=neww(w, d[i], xn, a) 
it=1 
myet=pow(e, 2) 
mye=np.sqrt(mye) 
mycount+=1 
err.append(mye) 
print u" 第 


%d 次 调整 后 的 权 值 : 


"%mycount 
print w 
print u"iz#: 


%f"%mye 

if abs(mye)<expect_e or mycount>maxtrycount:break 
print "w:[%f,%f]"%(w[0],w[1]) 
# 复 制 并 除去 背景 声音 


jg_wave_data=copy.deepcopy(new_wave_data) 
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jg_temp_wavedata=np.hstack((fi_wave_data, fi_wave_data) )[:len(new_wave_data) ] 
jg_temp_wavedata=jg_temp_wavedata|[ :1len(new_wave_data) ]*w[1]+w[0] 
jg_wave_data=jg_wave_data-jg_temp_wavedata 
for jg_i in xrange(0,len(jg_wave_data) ): 

if abs(jg_wave_data[jg_i] )<500: 

jg_wave_data[jg_i]=0 

jg_wave_data[:framerate]=0 
jg_wave_data =jg_wave_data.astype(wave_data.dtype) 
jg_str_data=jg_wave_data.tostring() 
print "save output wav...." 
fend.setnchannels(nchannels) 
fend.setframerate(framerate) 
fend.setsampwidth(sampwidth) 
fend.writeframes(jg_str_data) 
# 绘制 波形 











time = np.arange(0, nframes) * (1.0 / framerate) 
wave_data.shape = -1, 2 

wave_data = wave_data.T 

pl.subplot (321) 

pl.plot(time, wave_data[0]) 

pl.subplot (322) 

pl.plot(time, wave_data[1], c="g") 
pl.xlabel("time (seconds)") 

# 绘制 波形 


new_wave_data.shape = -1, 2 
new_wave_data =new_wave_data.T 
pl.subplot (323) 

pl.plot(time, new_wave_data[0] ) 
pl.subplot (324) 

pl.plot(time, new_wave_data[1], c="g") 
pl.xlabel("time (seconds)") 

pl.show() 

# 绘制 波形 


jg_wave_data.shape = -1, 2 
jg_wave_data =jg_wave_data.T 
pl.subplot (325) 

pl.plot(time, jg_wave_data[0]) 
pl.subplot (326) 

pl.plot(time, jg_wave_data[1], c="g") 
pl.xlabel("time (seconds)") 

pl.show() 




















jlo 220s Ae ese tr eH I ACR, ETTER EET E i 
文件 的 两 个 声 道 的 波形 图 ， 中 间 是 混杂 RAMU 
成 的 纯净 语音 文件 。 


观察 图 9-32 可 看 出 ，& 
关 程序 ， 执 行 后 ， 用 音箱 
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图 9-32 ”线性 滤波 效果 
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9.3 ”数据 或 曲线 平滑 
9.3.1 平滑 概述 


在 介绍 平滑 的 概念 之 前 ， 先 来 看 一 组 数据 ， 表 9-4 是 某 虚拟 商品 X 连 续 21 天 的 销量 。 
429-4 ”虚拟 商品 X 连 续 21 天 的 销量 








| | a ALa w T 8) 8) ld B 村 | o 9} 20) 2 
of fon eu sof wf 


IZ HARE me XA (如 图 9-33 所 示 ) ，R 代 码 如 下 : 








> 
x<-c(12, 123,54, 176, 121, 134, 198, 155, 122, 111, 133, 244, 278, 232, 267, 222,187,193, 245,110,132) 
> plot(x, type="0",col="blue", xlab="K 














"ylab=" 销 量 

") 
初步 观察 图 9-33， 曲线 波折 较 多 ， 销量 不 稳定 ， 仔 细 观 察 才能 发 现 销量 在 整体 走 
高 。 再 观察 图 9-3 4， 它 是 将 图 9-33 平 滑 处 理 后 生成 的 销量 走势 图 。 

观察 图 9-34， 曲 线 波动 较 小 ， ee 目 了 然 ， 销 量 连续 经 过 了 两 次 攀升 ， 
虽然 每 次 攀升 后 有 少量 回落 ， 但 销量 仍 在 增长 中 。 














MEERN KERAS 数据 或 曲线 平滑 是 通过 建立 近似 函数 来 发 现 数据 中 的 主 
， 去 除 录音、 结构 细 地 或 瞬时 讽 象 ， 减 少 不 必要 的 数据 波动 ， 从 击 实现 数据 集 的 
平滑 过 程 中 会 修改 数据 点 ， 降 低 由 噪音 数据 点 产生 的 影响 ， 而 低 于 毗邻 数据 点 的 点 

iW pele. 从 而 得 到 一 个 更 平滑 的 数据 序列 。 
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图 9-33 ”虚拟 商品 的 销量 图 
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图 9-34 ”经 过 平滑 处 理 后 的 销量 走势 图 
9.3.2 ”移动 平均 


移动 平均 (Moving Average, MA) ， 义 称 “移动 平均 线 ”， 简 称 均线 ， 是 数据 分 析 中 
一 种 分 术 时 间 序列 数据 的 工具 。 最 常见 的 是 利用 股价 、 交 易 量 等 变量 计算 出 移动 平 萄 。 6 
动 平均 可 抚 平 短期 波动 ， 有 反映 出 长 期 趋势 或 周期 ， 在 数学 上 ， 移 动 平均 可 视 为 一 种 卷 积 


1. 简 单 移动 平均 


简单 移动 平均 是 
收市 价 为 SMA， 该 用 





某 变 量 之 前 n 个 数值 的 未 作 加 权 的 算术 平均 。 比 如 ， 设 茶 股 票 的 预测 
票 前 n 日 的 收市 价 为 p1 至 pn ， 则 预测 收市 价 的 计算 方式 如 下 : 


ptpt +p 


n 


SMA= 
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公式 的 计算 效率 较 高 ， 原 因 在 于 ;计算 连续 的 数值 时 ， 阁 有 一 个 新 的 数值 加 
入 ， ans SNE ADA. Garage AICP BLES MEK, 如 下 面 的 公式 所 示 : 


p ] p ntl 
SMA p= SMA gym = 
n N 


ee Snare? Senne 
忆 Ke 


是 1) filter 参 数 《〈 该 参数 指定 了 参加 平均 计算 的 前 期 数据 的 权重 ) 设 定 为 In，n 为 前 n 


























2) method 参 数 指定 为 convolution， 表 示 使 用 移动 平均 法 ， 并 将 sides 参 数 设 置 为 1， 
表示 使 用 单 边 卷 积 。 


3) filter 函 数 对 数据 进行 预测 时 ， 参 与 计算 的 前 期 数据 不 但 包括 前 n-1 期 的 数据 ， 还 
包括 当前 数据 ， 预 测 值 的 计算 公式 如 下 : 


y[t]=f[1]*x[t]+fr2]*x[t-1]+f[3]*x[t-2]+...+f[n-1]*x[t-(n-1)] 
以 上 公式 中 ，t 为 时 间 ，f 为 该 时 间 点 数据 的 权重 值 。 


以 表 9-4 所 示 的 X 商 品 的 销量 为 例 ， 设 当前 时 间 点 t 为 3， 期 数 n 为 2， 权 重 为 /2〈 即 
人 有 数组， 提取 前 n 期 的 数据 ， 预 测 当 前 时 间 点 的 平滑 值 ， 其 计算 方式 如 








y[3]=x[2]x0.5+x[3]x0.5=123x0.5+54x0.5=88.5 
下 面 编写 R 人 代码， 对 表 9-4 所 示 的 销量 数据 进行 平滑 ， 效 果 如 图 9-35 所 示 。 





x<-c(12,123, 54, 176, 121,134,198,155,122,111,133, 244, 278, 232, 267, 222,187,193, 245, 110, 132) 
> plot(x, type=" o" /col= "blue" ,x1ab= "R 


",ylab=" 销 量 


") 

> y= filter(x, filter=rep(1/3,3),method = "convolution",sides=1) 
> lines(y,col="red") 

> points(y, pch=8, col="red") 











观察 图 9-35， 平 滑 效果 不 错 ， 红 色 曲 线 及 星 号 表示 平滑 后 的 数据 ， 蓝 色 S h Pe Eba 
MARIRE. DAREPADA tred, 3), ERNE ERKEN 
US, ANARA Ad, BITE ES JR ERLE A 


2. 加 权 移 动 平均 


加 权 移 动 下 均 给 国定 跨越 期 限 内 的 每 人 | 
期 产品 需求 的 数据 信息 We it 
期 性 变化 外 ， TA H br EL Z 
平均 法 实质 上 也 是 加 权 移 动 平均 ， 只 不 过 它 


加 权 移 动 平 均 的 计算 公式 如 下 : 
ylt-1]=a1 xx[t-1]+a2 xx[t-2]+a3 <x[t-3]+...+ap <x[t-n] 











PETMINE, JEBEL RE 
piae, Orra 简单 的 移动 
FE 
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上 式 中 ，a 为 权 值 ，x 为 数据 ，y 为 预测 值 ，n 为 参与 计算 的 数据 期 数 ， 且 权 值 之 和 为 














"e a 可 调用 filter 函 数 进 行 线性 过 滤 ， 实 现 加 权 移 动 平均 算法 ， 使 用 时 需要 注 
ish 人 人: 


a i 《该 参数 指定 了 参加 平均 计算 的 前 期 数据 的 权重 ) 设 定 为 参与 计算 时 间 点 


method -8ci8 定 为 convolution， 表 示 使 用 移动 平均 法 ， 并 将 sides 参 数 设 置 为 1， 表 示 
使 用 单 边 卷 积 。 


filter 疯 数 对 数据 进行 预测 时 ， 参 与 计算 的 前 期 数据 不 但 包括 前 n-1 期 的 数据 ， 还 包括 
当前 数据 ， 预 测 值 的 计算 公式 如 下 : 


y[t]=f[1]xx[t]+f[2]xx[t-1]+f[3]xx[t-2]+...+f[n-1]xx[t-(n-1)] 
以 上 公式 中 ，t 为 时 间 ，f 为 该 时 间 点 数据 的 权重 值 。 


以 表 9-4 所 示 的 X 商 品 的 销量 为 例 ， 设 当前 时 间 点 t 为 5， 期 数 n 为 3， 当 前 时 间 点 权重 
为 0.65， 前 1 个 时 间 点 的 权重 为 0.25， 前 2 个 时 间 U ale 1，x 为 商品 销量 数组 ， 提 取 
前 n 期 的 数据 ， 预 测 当前 时 间 点 的 平滑 值 ， 其 计算 方式 如 下 


y[5]=x[5]x0.65+x[4]x0.25+x[3]x0.1=121x0.65+176x0.25+54x0.1=128.05 
下 面 编写 R 人 代码， 对 表 9-4 所 示 的 销量 数据 进行 平滑 ， 效 果 如 图 9-36 所 示 。 




















x<- E 123,54, 176, 121, 134, 198, 155, 122, 111, 133, 244, 278, 232, 267 , 222, 187 , 193, 245, 110, 132) 
> plot(x, type=' 'o",col= "blue" ,xlab= "K 


",ylab=" 销 量 


") 

> y= filter(x, filter=c(0.65,0.25,0.1),method = "convolution", sides=1) 
> lines(y,col="red" 

> points(y, pch=8,col="red") 


观察 图 9-36， 平 滑 效果 不 错 ， 红 色 曲 线 及 星 号 表示 平滑 后 的 数据 ， 蓝 色 曲 线 以 及 空 
心 圆 点 表示 原 数据 。 上 述 R 程 序 通过 将 filter 参 数 设 为 c(0. 65，0.25，0.1)， 将 从 预测 时 间 点 
ene 前 的 3 个 时 间 点 的 权 值 分 别 设置 为 0.65、0.25、0.1， 从 而 生成 当天 的 平滑 数据 
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图 9-36 ”加 权 移 动 平均 


此 外 ， 还 可 输出 y 值 ， 从 以 下 输出 结果 可 以 看 出 ， 第 5 个 时 间 点 的 平滑 值 是 128.05， 与 
前 面 手 工 计算 的 一 致 。 





> y 
Time Series: 
Start = 1 
End = 21 
Frequency = 1 
[1] NA NA 67.05 140.20 128.05 134.95 174.30 163.65 137.85 118.15 
[11] 126.40 202.95 255.00 244.70 259.35 234.25 203.75 194.40 226.20 152.05 
[21] 137.80 





3. 双 边 卷 积 


双边 卷 积 算法 与 简单 移动 平均 法 、 加 权 移 动 平均 法 相似 ， 不 同 之 处 在 于 其 计算 平均 
值 的 依据 不 仅 包括 以 前 时 间 点 的 数据 ， 而 且 还 包括 以 后 时 间 点 的 数据 。 


人 
Kt 


'filter 参 数 〈 该 参数 指定 了 参加 平均 计算 的 前 期 数据 的 权重 ) 设 定 为 参与 计算 时 间 点 
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各 自 的 权重 。 


method 参数 指定 为 convolution， 表 示 使 用 移动 平均 法 ， 并 将 sides 参 数 设置 为 2， 表 示 
使 用 双边 卷 积 。 


fiter 函 数 对 数据 进行 预测 时 ， 参 与 计算 的 数据 不 但 包括 前 n-1 期 的 数据 和 当前 数据 ， 
还 包括 以 后 时 间 点 的 数据 。 以 期 数 是 5 为 例 ， 计 算 当 前 时 间 点 t 的 预测 值 y[]， 公 式 如 下 : 


y[t]=f[1]xx[t+2]+f[2]xx[t+1]+f[3]xx[t]+f[4]xx[t-1]+f[5]xx[t-2] 

以 上 公式 中 ，{ 为 时 间 ，f 为 该 时 间 点 数据 的 权重 值 。 

以 表 9-4 所 示 的 X 商 品 的 销量 为 例 ， 设 当前 时 间 点 t 为 5， 期 数 n 为 5， 当 前 时 间 点 权重 
为 0.5， 前 1 个 时 间 点 的 权重 为 0.15， 前 2 个 时 间 点 的 权重 为 0.1， 后 1 个 时 间 点 的 权重 为 
0.15， 后 2 个 时 间 点 的 权重 为 0.1，x 为 商品 销量 数组 ， 提 取 前 n-2 期 、 后 n-2 期 及 第 n 期 的 数 
据 ， 预 测 当 前 时 间 点 的 平滑 值 ， 计 算 方式 如 下 : 

y[5]=x[7]x0.1+x[6]x0.15+x[5]x0.5+x[4]x0.15+x[3]x0.1 

=198x0.1+134x0.15+121x0.5+176x0.15+54x0.1 

=132.2 


下 面 编写 R 代 码 ， 对 表 9-4 所 示 的 销量 数据 进行 平滑 ， 效 果 如 图 9-37 所 示 。 





> 
x<-c(12, 123,54,176, 121, 134, 198, 155, 122, 111, 133, 244, 278, 232, 267, 222,187,193, 245,110,132) 
> plot(x, type="0",col="blue", xlab="X 


",ylab=" 销 量 


") 

> y= filter(x, filter=c(0.1,0.15,0.5,0.15,0.1),method = "convolution", sides=2) 
> lines(y,col="red") 

> points(y, pch=8,col="red") 











观察 图 9-37， 平 滑 效果 不 错 ， 红 色 曲 线 及 星 号 表示 平滑 后 的 数据 ， 蓝 色 曲 线 及 空心 
圆 点 表示 原 数 据 。 上 述 R 程 序 通过 将 flter 参 数 设 为 c(0.1，0.15，0.5，0.15，0.1D)， 将 从 预测 
时 间 点 后 2 个 时 间 点 、 当 前 时 间 点 及 之 前 2 个 时 间 点 的 权 值 分 别 设置 为 0.1、0.15、0.5、 
0.15、0.1， 从 而 生成 当天 的 平滑 数据 值 。 


此 外 ， 还 可 输出 y 值 ， 从 以 下 输出 结果 可 以 看 出 ， 第 5 个 时 间 点 的 平滑 值 是 132.20， 与 
前 面 手 工 计 算 的 一 致 。 











> cy) 
[1 NA NA 85.15 139.95 132.20 147.95 166.65 150.00 134.00 133.65 159.75 217.95 250.40 
[18] 194.50 199.85 NA NA 





9.3.3 ”递归 线性 过 滤 











递归 线性 过 滤 相 当 于 自 回 归 法 ， 在 R 语 言 中 ， 可 调用 filtter 函 数 进行 递归 线性 过 滤 ， 使 
用 时 需要 注意 以 下 事项 : 


-filter 参数 〈 该 参数 指定 了 参加 平均 计算 的 前 期 数据 的 权重 ) 设 定 为 参与 计算 时 间 点 
各 自 的 权重 。 
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.method 参 数 指定 为 recursive， 表 示 使 用 递归 线性 过 滤 。 


、 ”filter 函数 对 数据 进行 预测 时 ， 参 与 计算 的 数据 包括 当前 时 间 点 的 数据 和 以 前 n-1 个 时 
间 点 的 预测 值 。 当 前 时 间 点 t 的 预测 值 y[ 的 计算 公式 如 下 : 


y[t]=x([t]+f[1]<y[t-1]+...+f[n-1]<y[t-(n-1)] 

以 上 公式 中 ，t 为 时 间 ，f 为 该 时 间 点 数据 的 权重 值 。 

以 表 9-4 所 示 的 X 商 品 的 销量 为 例 ， 设 当前 时 间 点 t 为 3， 期 数 n 为 2， 前 1 个 时 间 点 的 权 
重 为 0.1， 前 2 个 时 间 点 的 权重 为 0.05，x 为 商品 销量 数组 ， 提 取 前 n-2 期 预测 值 y 及 第 n 期 值 
x， 预 测 当前 时 间 点 的 平滑 值 ， 计 算 方式 如 下 : 

y[1]=x[1]=12 

y[2]=x[2]+x[1]*0.1=124.2y[3]=x[3]+y[2]*0.1+y[1]*0.05 

=54+124.2*0.1+12*0.05 

=67.02 

下 面 编写 R 人 代码， 对 表 9-4 所 示 的 销量 数据 进行 平滑 ， 效 果 如 图 9-38 所 示 。 








> 
x<-c(12,123, 54, 176, 121, 134, 198, 155, 122, 111, 133, 244, 278, 232, 267, 222,187,193, 245,110,132) 
> plot(x,type="o", col="blue",xlab=" 天 


" > ylab=" 销 量 


",ylim=c(1,400)) 

> y<-filter(x, filter=c(0.1,0.05),method = "recursive") 
> lines(y,col="red") 

> points(y, pch=8,col="red") 











观察 图 9-38， 红 色 曲 线 及 星 号 表示 平滑 后 的 数据 ， 蓝 色 曲 线 及 空心 圆 点 表示 原 数 
据 。 上 述 R 程 序 通 过 将 filter 参 数 设 为 c(0.1，0.05)， 将 以 前 2 个 时 间 点 的 权 值 分 别 设置 为 0.1 
和 0.05， 从 而 生成 当天 的 平滑 数据 值 。 
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图 9-37 ”双边 卷 积 
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图 9-38 ”递归 线性 过 滤 


此 外 ， 还 可 输出 y 值 ， 从 以 下 输出 结果 可 以 看 出 ， 第 3 个 时 间 点 的 平滑 值 是 67.02， 与 
前 面 手 工 计算 的 一 致 。 





> Cc 
[1] 12.0000 124.2000 67.0200 188.9120 143.2422 157.7698 220.9391 184.9824 
[9] 151.5452 135.4036 154.1176 266.1819 312.3241 276.5415 310.2704 266.8541 
[17] 229.1989 229.2626 279.3862 149.4018 160.9095 





9.3.4 “指数 平滑 


数 平 滑 (Exponential a ES) 法 是 布朗 (Robert G.Brown) Priz p 
mun iar iti 劳 具 有 稳定 性 或 规则 性 ， 所 以 时 间 序 列 可 被 合理 地 顺势 推 延 ， 
过 去 数据 趋势 ， CEH Lait BARK, PAO BOK A BEBE Se A BEBE: o E 
PR AEE FARE ER HE ER BY st TE EAMA, eee a A 
平滑 值 ， 配 合 一 定 的 时 间 序 列 预 测 模型 对 现象 的 未 来 进行 预测 ， 其 原理 是 任 一 期 的 指数 平 

滑 值 都 是 本 期 实际 观察 值 与 前 一 期 指数 平滑 值 的 加 权 平 均 。 


根据 平滑 次 数 不 同 ， 指 数 平滑 法 分 为 :一 次 指数 平滑 法 、 二 次 指数 平滑 法 和 三 次 指 
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数 平 滑 法 等 。 一 次 指数 平滑 法 是 根据 前 期 的 实测 数 和 预测 数 ， 以 一 次 平滑 系数 为 权重 ， 进 
行 加 权 平均 ， 从 而 预测 未 来 时 间 趋 势 的 方法 ， 二 次 指数 平滑 法 是 对 一 次 指数 平和 的 再 平 
滑 ， 它 保留 并 更 新 了 于 请 后 的 信号 用 于 请 后 的 趋势， PUE 系数 : 三 次 指 
数 平 滑 法 是 在 二 次 平滑 的 基础 上 再 添加 第 三 个 量 ， 用 来 描述 周期 性 ， 它 是 二 次 平滑 的 再 平 
滑 ， 增加 了 三 次 周期 平滑 系数 


1. 二 次 指数 平滑 
在 R 语 言 中 ， AAA 使 用 时 需要 注意 以 下 事项 : 


alpha 参数 指定 一 次 平滑 系数 ，beta 参 数 指定 二 次 平滑 系数 ， gamma? ALi EN 
FALSE 示 不 进行 三 次 平滑 ， 如 果 不 指定 平滑 系数 ，HoltWinters 王 数 将 自动 计算 最 优 系 


o 





















































.在 调用 HoltWinters 函 数 前 ， 需 要 使 用 ts 函数 将 数据 转化 为 时 间 序 列 向 量 。ts 函 数 主要 
有 以 下 参数 : 


‘Frequency: 周期 频率 

‘Start: 开始 时 间 点 

下 面 编写 R 代 码 ， 对 表 9-5 所 示 的 虚拟 商品 Y 的 销量 数据 进行 平滑 。 
表 9-5 ”虚拟 商品 Y 连 续 21 天 的 销量 


EEEE TTT Ter 
at is fw i su ori wii 


首先 ， 载 入 数据 ， 然 后 转 成 时 间 序 列 。 














> 
x<-c(42, 153,54, 176, 61, 134, 98, 155, 82, 111, 63, 244,178, 232, 167 , 222, 107 , 193, 115, 190, 132) 
> ts(x,frequency=7, start=c(1,1))->sales.x 
> sales.x 
Time Series: 
Start = c(1, 1) 
End = c(3, 7) 
Frequency = 7 
[1] 42 153 54176 61134 98 155 82 111 63 244 178 232 167 222 107 193 
[19] 115 190 132 


观察 sales.x 的 输出 结果 ， 表 9-5 所 示 为 21 天 的 销售 数据 ， 指 定 周期 为 7 天 后 ， 即 形成 以 
周 为 周期 的 时 间 序列 ，Start 表 示 数 据 的 周期 起 始 为 c1，1)， 即 : 第 1 周 的 第 1 天 ，End 表 示 
数据 的 周期 终止 为 3，7)， 即 : 第 3 周 的 第 7 天 。 


然后 ， 进 行 二 次 平滑 。 











> HoltWinters(sales.x, gamma=FALSE) ->mysol 
> mysol 

Holt-Winters exponential smoothing with trend and without seasonal component. 
Call: 

Holtwinters(x = sales.x, gamma = FALSE) 
Smoothing parameters: 

alpha: 0.4649865 

beta : 0.8894224 

gamma: FALSE 

Coefficients: 

[,1] 








wawai bbt .cam DEE ATCHHE 





























a 143.102068 
b 2.827244 
> 


观察 mysol 和 输出 ，HoltWinters 函 数 计算 出 最 佳 平滑 系数 ， 其 中 ， 一 次 指数 平滑 系数 为 
0.4649865， 二 次 指数 平滑 系数 为 0.8894224。 

最 后 ， 绘 制 效果 图 (如 图 9-39 所 示 )。 

> plot(sales.x,col="blue",ylim=c(1,500),xlim=c(1,5),xlab=" 周 


", ylab=" 销 量 


") 
> lines(mysol$fitted[,1],col="red", type="b") 


观察 图 9-39， 蓝 色 实 线 是 原 数 据 ， 红 色 虚 线 是 平滑 拟 合 值 。 
2. 三 次 指数 平滑 
在 R 语 言 中 ， 可 调用 HoltWinters 函 数 进行 三 次 指数 平滑 ， 使 用 时 需要 注意 以 下 事项 ; 
次 平滑 系数 ，beta 参 数 指定 二 次 平滑 系数 ，gamma 人 参数 指定 三 次 平 

















ZAIN 


"HoltWinters 函 数 计算 预测 值 的 方式 有 如 下 两 种 。 
第 一 种 是 累 乘 法 ， 计 算 公 式 如 下 : 


aft}a(T]A)/s{t-p])+(1-a)(a{t-1]+o[t-1)) 
oft} Blal#|-a[/-1))+(1-P)b(t-] 


sA afl- slp] 
Yhat{t+h]=(a[f}+h X b[f]) X s[t-p+1+(h-1)mod p] 
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图 9-39 ”二 次 指数 平滑 


其 中 ，a、B、y 分 别 为 一 次 、 二 次 、 三 次 平滑 系数 ，Yhat 为 预测 值 。 
第 二 种 是 累加 法 ， 计 算 公式 如 下 : 


altl=a( YM-stt-p)+(1-0)(olt-l]+b[t-1)]) 

bliplalt-alt-1])+(1-p)b[e-1] 

s[ty(2]t}-a[t])+(1-))s[t-p] 
Yhat{t+h}=(a{t}+h x bft) x s[t-p+1+(h-L)mod pl 


由 seasonal 参 数 指定 三 次 平滑 的 方式 ， 分 别 为 additive〈 累 加 方式 ) 、 
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multiplicative ( 累 乘 方式 ) ， 默 认为 additvie。 


需要 使 用 ts 函数 将 数据 转化 为 时 间 序 列 向 量 。ts 函 数 主 要 有 


‘Frequency: 周期 频率 

‘Start: 开始 时 间 点 

下 面 编写 R 代 码 ， 对 表 9-4 所 示 的 虚拟 商品 X 的 销量 数据 进行 平滑 。 
首先 ， 载 入 数据 ， 然 后 转 成 时 间 序 列 。 














> 
x<-c(12, 123,54, 176, 121, 134, 198, 155, 122, 111, 133, 244, 278, 232, 267, 222,187,193, 245,110,132) 
> ts(x,frequency=7, start=c(1,1))->sales.x 
> sales.x 
Time Series: 
Start = c(1, 1) 
End = c(3, 7) 
Frequency = 7 
[1] 12 123 54 176 121 134 198 155 122 111 133 244 278 232 267 222 
[17] 187 193 245 110 132 








观察 sales.x 的 输出 结果 ， 表 9-4 所 示 为 21 天 的 销售 数据 ， 指 定 周期 为 7 天 后 ， 即 形成 以 
周 为 周期 的 时 间 序列 ，Start 表 示 数 据 的 周期 起 始 为 1，1TD， 即 : 第 1 周 的 第 1 天 ，End 表 示 
数据 的 周期 终止 为 cc3，7)， 即 : 第 3 周 的 第 7 天 。 


LARAJ 然后 ， 进行 三 次 平滑 。 





> HoltWinters(sales.x)->mysol 
> mysol 
Holt-Winters exponential smoothing with trend and additive seasonal component. 
Call: 
Holtwinters(x = sales.x) 
Smoothing parameters: 
alpha: 0.6264084 
beta : 0 
gamma: 1 
Coefficients: 
[,1] 
a 122.270966 
b 8.447279 
s1 36.581455 
s2 -20.578516 
s3 -57.187646 
s4 -26.947654 
s5 24.695147 
s6 -30.083230 
s7 9.729034 





观察 mysol 输 出，HoltWinters 函 数 计算 出 最 佳 平滑 系数 ， 其 中 ， 一 次 指数 平滑 系数 为 
06264084, RRENA, SUGARAS. JN AXAR 
S S/o 


再 绘制 效果 图 ， 如 图 9-40 所 示 。 





> plot(sales.x,col="blue",ylim=c(1,500),xlim=c(1,5),xlab=" 周 


" ,ylab=" 销 量 


> lines(mysol$fitted[,1],col="red", type="b") 
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观察 图 9-40， 蓝 色 实 线 是 原 数据 ， 红 色 虚 线 是 平滑 拟 合 值 。 


最 后 ， 对 以 后 的 趋势 进行 预测 。 表 9-4 所 示 的 数据 是 虚拟 商品 X21 天 的 销量 ， 现 在 对 
以 后 14 天 的 销量 进行 预测 ， 预 测 效 果 如 图 9-41 所 示 。 





> predict(mysol, 14, prediction.interval = TRUE)->p 
> plot (mysol,p,xlab=" 周 


er 
", xLim=c(1, 7), main="#ii Hii 

") 

WR 9-41, ERNEA ERN ED eH o ea Di 以 后 14 天 


pat Xa A A y， 该 部 分 的 中 间 红 线 为 预测 走势 曲线 ， 方 和 下 方 曲线 分 别 
为 预测 置信 区 间 的 上 限 和 下 限 。 
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图 9-40 ”三 次 指数 平滑 
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9.4 小 结 


本 章 首 先 介绍 了 数据 拟 合 的 技术 。 数 据 拟 合 是 通过 理想 的 假设 方程 来 拟 合 数 据 
时 到 这 个 假设 方程 主 要 有 两 种 方 起 :第 一 通过 纲 守 样本 数据 只 的 分 布 基 全 计 
到 像 ， 在 拟 合 后 计算 相关 统计 指标 ， 评 佑 拟 合 的 效果 ; 以 假设 方程 的 自 变 
fA, UTE IEKA, BAARI I EEMAL 
ee ah 其 实质 是 建立 一 个 更 复杂 的 拟 合 


AA OH TET DA, 递归 线性 过 滤 法 、 指数 平滑 法 等 平滑 方法 。 数 据 或 曲线 平 
滑 通 过 建立 近似 函数 发 现 数 据 中 的 主要 模式 ， 去 除 噪声 、 结 > Ui 六 
要 的 数据 波动 ， 从 而 实现 数据 集 的 平滑 。 
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思考 题 


(1) 假设 有 两 类 数据 ， 下 面 是 这 两 类 数据 的 分 布 散 点 图 ， 从 图 像 上 分 析 拟 合 这 些 数 
据 的 函数 方程 。 


(2) 编写 Python 代码 实现 多 层 感知 器 ， 拟 合 y=0.7sin(x)+0.3cos( 允 函数 。 


(ee b 性 滤波 去 除 背 景 音乐 的 方法 。 请 尝试 用 非 线性 滤波 解决 这 个 
问题 ， : 使 用 多 层 感 知 器 对 背景 音乐 进行 拟 合 ， 然 后 将 它 从 语音 文件 中 去 除 。 
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第 10 章 ”图像 算法 案例 


机 器 学 习 算 法 可 对 数字 图 像 进行 加 工 和 处 理 ， 以 便 进 一 op ae 主 
目标 为 从 图 像 中 挖掘 所 需要 的 知识 和 信息 ， 主 要 解决 网 像 锐 化 、 图 像 除 图 像 增强 、 
KESE REJ, 图 像 获取 、 预 处 理 、 ‘CES. 加 工 

KE 识 等 sF o 
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10.1 图 像 边 缘 算 法 
10.1.1 数字 图 像 基础 








ee ee T a E 
元 人 每 个 像素 都 用 有 限 数值 表示 ， 对 应 于 二 维 空 
a. B 组 成 的 矩 孟 ， 通 常 每 个 像素 点 由 3 个 元 素 组 成 绿 、 蓝 ， 
这 3 个 基 jpn] a E ani IPR RDF ME IOS Ge ys 2 这 
样 的 一 个 点 ， 这 个 点 定义 在 三 维 空间 ， 每 一 维 分 别 代表 红 、 绿 、 蓝 分 量 。 

假设 将 像素 的 顺序 定义 为 : 蓝 、 绿 、 ee 
天 小 GDR, WIE)» AAMAS TSW Ce iA AA 
基本 分 量 组 成 ) 。OpenCV 作 为 图 像 算 法 库 ， 对 图 像 矩 阵 也 是 这 么 定义 的 。 请 提前 安装 好 
OpenCV, EEA. 例子 都 需要 它 的 Python 绑 定 库 。 


假设 图 像 矩 阵 的 变量 名 为 img， ATE E Python EA Tae re 9200. 绿色 为 
100、 红 色 为 50 的 像素 点 的 定义 ， 这 个 像素 点 位 于 图 像 的 300x150 处 。 代 码 如 下 : 











img[300, 150, 0]=200 
img[300, 150, 1]=100 
img[300, 150, 2]=50 





10.1.2 ”算法 描述 


算法 的 基本 原理 是 : 将 当前 像素 与 邻接 的 下 部 和 右 部 的 像素 进行 比较 ， 如 果 相 似 ， 
则 将 当前 像素 设置 为 和 白色， 否则 设置 为 黑色 。 如 何 判 定 像素 相似 呢 ? 应 用 欧 氏 距离 算法 ， 
将 一 个 像素 的 3 个 色彩 分 量 映 射 在 三 维 空间 中 ， 如 果 2 个 像素 点 的 欧 氏 距 离 小 于 KARAR 
ss 算法 的 最 终 效果 如 图 10-1 所 示 。 图 10-1 中 左 图 是 原 图 像 ， 右 图 是 




















图 10-1 ”图像 边缘 
上 面 涉 及 的 算法 其 关键 是 欧 氏 距离 计算 。 下 面 用 Python 编写 计算 欧 氏 距离 的 函数 。 





def get_EuclideanDistance(x,y): 
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myx=np.array(x) 
myy=np.array(y) 
return np.sqrt(np.sum((myx-myy) *(myx-myy) ) ) 


完整 的 代码 为 : 








#!/usr/bin/env python 

#-*- coding: utf-8 -*- 

#code:myhaspl@qq.com 

#10-1.py 

import cv2 

import numpy as np 

fn="test1.jpg" 

def get_EuclideanDistance(x,y): 
myxX=np.array(x) 
myy=np.array(y) 
return np.sqrt(np.sum((myx-myy)*(myx-myy) ) ) 

if name__ == '__main__': 
print 'loading %s ...' % fn 
print 'working', 
myimg1 = cv2.imread(fn) 
w=myimg1.shape[1] 
h=myimg1.shape[0] 
szi=w 








# 创 建 空 白 图 像 














myimg2=np.zeros((sz0,sz1,3), np.uint8) 
# 对 比 产生 线条 





black=np.array([0,0,0]) 
white=np.array([255, 255, 255] ) 
centercolor=np.array( [125,125,125] ) 
for y in xrange(0,sz0-1): 
for x in xrange(0,sz1-1): 
mydown=myimgi[y+1,x,:] 
myright=myimg1i[y, x+1,:] 
myhere=myimgi[y,x,:] 
lmyhere=myhere 
Imyright=myright 
1mydown=mydown 
if get_EuclideanDistance(lmyhere, lmydown)>16 and get_EuclideanDistan\ 
ce(lmyhere, lmyright )>16: 
myimg2[y,x, : ]=black 
elif get_EuclideanDistance(lmyhere, lmydown)<=16 and get_EuclideanDis\ 
tance(lmyhere, lmyright )<=16: 
myimg2[y,x, :]=white 
else: 
myimg2[y,x, :]=centercolor 
print '.', 
cv2.namedwindow( 'img2' ) 
cv2.imshow('img2', myimg2) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 


一 





wawai bbt .cam DEE ATCHHE 
































ABTT RAET ain AN 的 方法 。 如 图 10-2 所 汞 是 美国 的 X- 
47B， 它 是 人 类 历史 上 第 一 架 无 需 人 工 干 预 、 完 全 由 计算 机 智能 操纵 的 无 人 驾驶 飞机 。 现 
HDR ACAD SEMBLE ME 内 容 。 





图 10-2”X-47B 航 母 起 飞 


如 图 10-3 所 示 为 图 10-2 的 两 张 局 部 切片 图 。 我 们 的 任务 是 找到 两 张 切 片 图 在 图 10-2 中 
的 位 置 ， 并 将 它们 标注 出 来 。 
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图 10-3 ”两 张 X-47B 起 飞 画 面 切 片 图 


10.2.1 ”差分 矩阵 求 和 


差分 算法 的 核心 在 于 差分 矩阵 ， 实 质 为 差异 窍 阵 ， 计 算 公式 很 简单 : 
差分 矩阵 = 图 像 A 窍 阵 数据 -图 像 B 窍 阵 数据 


算法 过 程 是 ， 首先 ， 计 算 两 个 图 像 的 矩阵 数据 之 间 差 异 分 析 图 像 的 相似 性 ;然后 ， 
设置 一 个 净值 进行 比较 ， 如 采 差 分 矩阵 的 所 有 元 素 之 和 在 阔 值 以 内 ， 则 表示 这 两 张 图 像 是 
相似 的 ， 且 描述 了 同一 物体 。 另 外 ， 它 要 求 两 个 图 像 的 大 小 相同 ， 大 小 处 理 对 于 计算 机 来 
说 不 成 问题 ， 改 变 图 像 尺 寸 的 敬 法 已 非常 成 训 实现 起 来 很 方便 。 


编写 程序 实现 这 个 算法 的 基本 思路 为 : 将 图 10-3 所 示 的 切片 图 在 图 10-2 中 进行 移动 ， 
并 计算 两 个 图 像 的 差分 矩阵 ， 如 果 差 分 矩阵 的 所 有 元 素 之 和 小 于 1， 则 认为 找到 了 切片 图 
在 图 像 中 的 位 置 。 实 现 该 算法 的 Python 代码 如 下 : 











def showpiclocation(img, findimg): 
# 定 位 图 像 


w=img.shape[1] 
h=img.shape[0] 
fw=findimg.shape[1] 
fh=findimg.shape[0] 
findpt=None 
for now_h in xrange(0,h-fh): 
for now_w in xrange(0,w-fw): 
comp_tz=img[now_h:now_h+fh, now_w:now_wtfw, : ]-findimg 
if np.sum(comp_tz)<1: 
findpt=now_w, now_h 
print ".", 
if findpt!= None: 
cv2.rectangle(img, findpt, (findpt[0]+fw, findpt[1]+fh), (255,0,0)) 
return img 





WwWVai bbt .cam OAA TAE 


如 图 10-4 所 示 为 算法 效果 图 ， 看 上 去 识别 效果 不 错 。 








图 10-4 切片 识别 效果 图 


完整 的 Python 代码 如 下 ; 





#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
#10-2.py 

# 简 单 定位 图 像 





import cv2 

import numpy as np 

print ‘loading ...' 

def showpiclocation(img, findimg): 
# 定 位 图 像 


w=img.shape[1] 
h=img.shape[0] 
fw=findimg.shape[1] 
fh=findimg.shape[0] 
findpt=None 

for now_h in xrange(0,h-fh): 
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for now_w in xrange(0,w-fw): 
comp_tz=img[now_h:now_h+fh, now_w:now_wtfw, : ]-findimg 
if np.sum(comp_tz)<1: 
findpt=now_w, now_h 
print ".", 
if findpt! =None: 
cv2.rectangle(img, findpt, (findpt[0]+fw, findpt[1]+fh), (255,0,0)) 
return img 

fn='pictest.png' 
fni='pictestt1.png' 
fn2='pictestt2.png' 
myimg=cv2.imread(fn) 
myimgi=cv2.imread(fn1) 
myimg2=cv2.imread(fn2) 
myimg=showpiclocation(myimg, myimg1) 
myimg=showpiclocation(myimg, myimg2) 
cv2.namedwindow( 'img' ) 
cv2.imshow('img', myimg) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 





10.2.2 ”差分 矩阵 均值 


刚才 小 试 牛刀 ， 通 过 对 兰 分 惩 阵 中 所 有 元 素 求 和 完成 了 匹配 ， OR AME. SS 
像 质量 较 差 时 ， 则 需要 计算 差分 矩阵 的 均值 ， 并 为 均值 设 一 个 适当 的 阔 值 。 


, P onn A ris JA 
TAU AS EE SIRTE EAIA CTE 因 办 图 像 质 量 个 ， 存 在 很 多 噪声 点 ， 所 以 要 将 差 
AEM LEA BEB TA ma, AERAN. À 通常 来 说 ， 阔 值 为 10~200， 阔 值 越 
大 ， 能 容忍 的 噪声 点 越 多 。 但 如 果 六 值 超 过 200， 最 好 使 用 下 一 节 介 绍 的 欧 氏 距离 算法 。 
如 图 10-5 所 示 是 算法 应 用 效果 。 
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图 10-5” 弱 噪声 切片 识别 效果 图 “ 附 彩 图 ) 
Python 代 码 如 下 : 
#!/usr/bin/env python 


#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
10 





“py 
声 定 位 图 像 


import cv2 

import numpy as np 

print ‘loading ...' 

def showpiclocation(img, findimg): 
# 定 位 图 像 


w=img.shape[1] 

h=img.shape[0] 

fw=findimg.shape[1] 

fh=findimg.shape[0] 

findpt=None 

for now_h in xrange(0,h-fh): 

for now_w in xrange(0,w-fw): 

comp_tz=img[now_h:now_h+fh, now_w: now_wtfw, : ]-findimg 
if abs(np.mean(comp_tz) )<20: 
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findpt=now_w, now_h 
print "ok" 
print ".", 
if findpt!=None: 
cv2.rectangle(img, findpt, (findpt[0]+fw, findpt[1]+fh), (0,0, 255) ) 
return img 
def addnoise(img): 
coutn=50000 
for k in xrange(0,coutn): 
xi = int(np.random.uniform(0,img.shape[1]) ) 
xj = int(np.random.uniform(0, img.shape[0] ) ) 
img[xj,xi,O]= 255 *np.random.rand() 
img[xj,xi,1]= 255 *np.random.rand() 
img[xj,xi,2]= 255 *np.random.rand() 
fn='pictest.png' 
fni='pictestt1.png' 
fn2='pictestt2.png' 
myimg=cv2.imread(fn) 
myimgi=cv2.imread(fn1) 
myimg2=cv2.imread(fn2) 
addnoise(myimg) 
myimg=showpiclocation(myimg, myimg1) 
myimg=showpiclocation(myimg, myimg2) 
cv2.namedWindow('img' ) 
cv2.imshow('img', myimg) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 





可 见 ， 在 弱 噪 声 的 情况 下 ， 差 分 算法 仍然 具有 很 好 的 匹配 效果 。 





10.2.3” 欧 氏 距离 匹配 


1. 强 噪声 图 像 匹 配 
E 下 的 图 像 进 行 匹 配 时 ， 欧 氏 距 离 匹配 方法 相对 于 以 上 两 种 方法 会 有 更 
人 次 


仍 以 上 面 的 图 像 为 目标 进行 讲解 。 首 先 ， 在 目标 图 像 中 加 上 更 多 的 《500000 个 ) 不 
同 颜 色 的 噪声 点 。 代 码 如 下 : 

















def addnoise(img): 

coutn=500000 

for k in xrange(0,coutn): 
xi = int(np.random.uniform(0, img.shape[ 
xj = int(np.random.uniform(0, img.shape[ 
img[xj,xi,0]= 255 *np.random.rand() 
img[xj,xi,1]= 255 *np.random.rand() 
img[xj,xi,2]= 255 *np.random.rand() 


1])) 
9] ) ) 





生成 强 噪声 环境 下 的 图 像 ， 如 图 10-6 所 示 。 
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图 10-6” 强 噪声 图 像 ( 附 彩 图 ) 


现在 要 应 用 欧 氏 距离 对 如 图 10-6 所 示 的 目标 图 完成 匹配 。 其 核心 算法 为 : ERE 
阵 有 n 个 元 素 ， 用 n 个 元 素 值 (xp ，x2 ，...，xn ) 组 成 该 图 像 的 特征 组 ， 特 征 组 形成 了 n 
维 空间 ， 特征 组 中 的 特征 码 构成 每 一 维 的 数值 。 在 n 维 空间 下 ， 两 个 图 像 矩 阵 各 形成 了 一 
个 点 ， 然 后 计算 这 两 个 点 之 间 的 距离 ， 距 离 最 小 者 为 最 匹配 的 图 像 。 


如 图 10-7 所 示 是 算法 应 用 的 效果 图 ， 欧 氏 距 离 算法 成 功 地 找到 了 匹配 位 置 。 在 图 像 
ed a i i 
过 人 类 的 “智能 ”。 
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图 10-7” 强 噪声 切片 识别 效果 图 ( 附 彩 图 ) 
完整 的 Python 代 码 如 下 : 





#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
#10-4.py 

# 大 量 噪声 定位 图 像 


import cv2 
import numpy as np 
print 'http://blog.csdn.net/myhasp1' 
print 'myhaspl@qq.com' 
print 
print ‘loading ...' 
def get_EuclideanDistance(x,y): 
myx=np.array(x) 
myy=np.array(y) 
return np.sqrt(np.sum((myx-myy)*(myx-myy) ) ) 
def findpic(img, findimg,h, fh,w, fw): 
minds=1e8 
mincb_h=0 
mincb_w=0 
for now_h in xrange(0,h-fh): 
for now_w in xrange(0,w-fw): 
my_img=img[now_h:now_h+fh, now_w: now_w+fw, : ] 
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my_findimg=findimg 
dis=get_EuclideanDistance(my_img, my_findimg) 
if dis<minds: 
mincb_h=now_h 
mincb_w=now_w 
minds=dis 
print ".", 
findpt=mincb_w, mincb_h 
cv2.rectangle(img, findpt, (findpt[0]+fw, findpt[1]+fh), (0,0, 255) ) 
return img 
def showpiclocation(img, findimg): 
# 定 位 图 像 


w=img.shape[1] 
h=img.shape[0] 
fw=findimg.shape[1] 
fh=findimg.shape[0] 
return findpic(img, findimg,h, fh, w, fw) 
def addnoise(img): 
coutn=500000 
for k in xrange(0,coutn): 
xi = int(np.random.uniform(0,img.shape[1] ) ) 
xj = int(np.random.uniform(0, img.shape[0] ) ) 
img[xj,xi,0]= 255 *np.random.rand() 
img[xj,xi,1]= 255 *np.random.rand() 
img[xj,xi,2]= 255 *np.random.rand() 
fn='pictest.png' 
fni='pictestt1.png' 
fn2='pictestt2.png' 
myimg=cv2.imread(fn) 
myimgi=cv2.imread(fn1) 
myimg2=cv2.imread(fn2) 
addnoise(myimg) 
myimg=showpiclocation(myimg, myimg1) 
myimg=showpiclocation(myimg, myimg2) 
cv2.namedwindow( 'img' ) 
cv2.imshow('img', myimg) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 





2. 变 形 图 像 匹 配 


欧 氏 距离 方法 不 仅 对 强 噪声 图 像 区 配 有 效 ， 而 且 对 变形 后 的 图 像 史 配 效 果 也 不 错 。 
如 图 10-8 所 示 就 是 应 用 欧 氏 距离 方法 对 有 倾斜 角度 的 图 像 进行 匹配 的 效果 。 
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图 10-8 R ARE A eR A 








算法 原理 前 面 已 经 解说 过 ， 在 此 不 重复 。 相 关 的 Python 代码 实现 如 下 : 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
#10-5.py 

# 图 像 倾 斜 后 定位 图 像 


import cv2 

import numpy as np 

print ‘loading ...' 

def get_EuclideanDistance(x, y) 
myx=np.array(x) 
myy=np.array(y) 





return np.sqrt(np.sum((myx-myy ) *(myx-myy) ) ) 


def 
minds=1e8 
mincb_h=0 
mincb_w=0 


findpic(img, findimg,h, fh,w, fw): 


for now_h in xrange(0,h-fh): 
for now_w in xrange(0,w-fw): 
my_img=img[now_h:now_h+fh, now_w: now_w+fw, : ] 
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my_findimg=findimg 
dis=get_EuclideanDistance(my_img, my_findimg) 
if dis<minds: 
mincb_h=now_h 
mincb_w=now_w 
minds=dis 
print ".", 
findpt=mincb_w, mincb_h 
cv2.rectangle(img, findpt, (findpt[0]+fw, findpt[1]+fh), (0,0, 255) ) 
return img 
def showpiclocation(img, findimg): 
# 定 位 图 像 


w=img.shape[1] 

h=img.shape[0] 

fw=findimg.shape[1] 

fh=findimg.shape[0] 

return findpic(img, findimg,h, fh, w, fw) 
fn='pictestxz.png' 
fni='pictestt1.png' 
fn2='pictestt2.png' 
myimg=cv2.imread(fn) 
myimgi=cv2.imread(fn1) 
myimg2=cv2.imread(fn2) 
myimg=showpiclocation(myimg, myimg1) 
myimg=showpiclocation(myimg, myimg2) 
cv2.namedWindow('img' ) 
cv2.imshow('img', myimg) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 





欧 氏 距离 对 弱 噪 声 环 境 下 的 变形 图 像 仍 有 不 错 的 效果 ， 如 图 10-9 所 示 。 
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图 10-9” 弱 噪声 变形 图 像 匹 配 
该 算法 的 Python 实现 代码 如 下 ; 





#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
#10-6.py 

# 图 像 倾 斜 后 加 噪声 点 ， 定 位 图 像 














import cv2 
import numpy as np 
print ‘loading ...' 
def get_EuclideanDistance(x,y): 

myx=np.array(x) 

myy=np.array(y) 

return np.sqrt(np.sum((myx-myy ) *(myx-myy) ) ) 
def findpic(img, findimg,h, fh,w, fw): 

minds=1e8 

mincb_h=0 

mincb_w=0 

for now_h in xrange(0,h-fh): 

for now_w in xrange(0,w-fw): 
my_img=img[now_h:now_h+fh, now_w: now_w+fw, : ] 
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my_findimg=findimg 
dis=get_EuclideanDistance(my_img, my_findimg) 
if dis<minds: 
mincb_h=now_h 
mincb_w=now_w 
minds=dis 
print ".", 
findpt=mincb_w, mincb_h 
cv2.rectangle(img, findpt, (findpt[0]+fw, findpt[1]+fh), (0,0, 255) ) 
return img 
def showpiclocation(img, findimg): 
# 定 位 图 像 


w=img.shape[1] 
h=img.shape[0] 
fw=findimg.shape[1] 
fh=findimg.shape[0] 
return findpic(img, findimg,h, fh, w, fw) 
def addnoise(img): 
coutn=50000 
for k in xrange(0,coutn): 
xi = int(np.random.uniform(0,img.shape[1]) ) 
xj = int(np.random.uniform(0,img.shape[0] ) ) 
img[xj,xi,0]= 255 *np.random.rand() 
img[xj,xi,1]= 255 *np.random.rand() 
img[xj,xi,2]= 255 *np.random.rand() 
fn='pictestxz.png' 
fni='pictestt1.png' 
fn2='pictestt2.png' 
myimg=cv2.imread(fn) 
myimgi=cv2.imread(fn1) 
myimg2=cv2.imread(fn2) 
addnoise(myimg) 
myimg=showpiclocation(myimg, myimg1) 
myimg=showpiclocation(myimg, myimg2) 
cv2.namedWindow('img' ) 
cv2.imshow('img', myimg) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 


二 一 
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10.3 图像 分 类 

近年 来 随 者 多 媒体 技术 的 发 展 ， 图 像 分 类 技术 受到 了 普 衣 的 关注 ， 目 前 采用 的 方法 
以 机 器 学 习 算 法 为 主 。 图 像 分 类 利用 计 ， 根 据 图 像 信息 六 
将 不 同类 别 的 图 像 区 分 开 来 。 

图 像 分 类 的 算法 过 程 如 下 : 

1) 准备 样本 图 像 。 样 本 图 像 的 要 求 是 ， 能 代表 所 属 类 别 中 尽 可 能 多 的 图 像 。 

2) 提取 每 个 样本 的 特征 后 ， 形 成 类 别 特征 码 。 

3) 应 用 机 器 学 习 算法 对 类 别 特征 码 进行 学 习 ， 提 取 特 征 码 包 含 的 图 像 知识 。 

A) 判断 未 知 图 像 所 属 类 别 。 
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10.3.1 余弦 相似 度 
































尤其 Gan] ewan A ela ia acest REUE A thd 
说 ， 数 字 图 特征 码 较 多 ， 而 这 些 特 征 组 就 属于 高 维 空间 ， 这 正 是 余弦 相似 度 算法 
应 用 的 范围 ， 复 法 将 每 个 图 像 的 特征 组 转化 为 高 维 空间 的 向 昌 ， 两 个 向 量 之 间 的 角度 之 余 
AH ALTE BN BR SUTRA 的 方向 。 

















在 图 像 分 类 中 应 用 余弦 相似 度 算 法 的 关键 在 于 : ee 
in STI Ge 2 1 HOLE 对 于 相似 性 的 衡量 标准 有 以 下 

















.为 相似 性 设置 一 个 国 值 。 在 这 个 浆 值 以 内 的 都 属于 同一 类 别 图 像 。 这 种 标准 可 以 将 
EAS ye ORY, 例如 :高 楼 不 但 属于 城市 美景 TAY SER 


选择 与 样本 向 量 的 余弦 相似 度 最 接近 1 的 图 像 为 该 类 别 图 像 。 这 种 标准 只 能 将 图 像 
划分 为 一 种 类 别 。 


1. 算 法 描述 
下 面 针 对 第 二 种 衡量 标准 讲解 余弦 相似 度 算法 。 


特征 提取 一 直 是 图 像 处 理 和 计算 机 视觉 研究 领域 中 一 个 值得 探讨 的 问题 ， 在 计算 机 
科学 、 医 疗 辅助 诊断 、 军 事 、 工业 测量 等 众多 领域 部 广泛 采 这 一 技术 Te if SHU 
视觉 和 模式 识别 的 研究 中 。 le 
me ee 要 前 期 准备 和 关键 因素 。 目 前 图 像 特 征 提 取 算 法 较 多 ， KA 
MEDENE ANTE LURAY ER. 


本 下 讲述 的 算法 基本 原理 是 : 把 图 像 上 的 点 分 为 不 同 的 子 集 ， 这 些 子 集 往往 属于 抓 
并 的 点 、 连 续 的 曲线 或 者 连续 的 区 域 。 将 这 些 点 按 区 域 组 成 子 集 ， 提 取 子 集 的 特征 后 ， 将 
每 个 子 集 的 特征 作为 图 像 的 一 个 特征 项 来 进行 计算 。 


) 样本 特征 。 设 图 像 分 为 m 个 区 域 ， 每 个 区 域 有 n 个 像素 ， 每 个 像素 在 图 像 矩阵 中 
以 红 、 va = Ka, HX 域 特 和 正 计算 方式 为 : 
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VRE RENEE RRR AE MEE 
KAREE = E r $4 


TARINENECAHE 
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MA, ERRED ME A3xm, BUIES4T my], XTRA AR, B= Pore, 
每 列 为 各 分 量 的 区 域 特 征 码 。 
) 类 别 特 征 。 这 里 为 每 个 类 别 准备 了 3 个 样本 ， 类 别 特征 的 计算 方式 为 : 


样本 ;的 红色 分 量 和 全 值 DAA NER 
类 半生 = 一 一 一 一 


J 








YeRinEe Me 


其 中 ， 样 本 i 是 属于 该 类 别 的 样本 。 


在 计算 出 类 别 特征 后 ， 算 法 对 样本 学 习 完 毕 。 当 有 未 知 图 像 需要 分 类 时 ， 首 先 计 算 
其 图 像 的 样本 特征 ， 然 后 将 样本 特征 和 关 别 特征 映射 为 高 维 空 | ， 最 后 计算 这 两 个 
向 量 的 余弦 相似 度 ， 选 择 余弦 相似 度 最 大 的 类 别 为 , 


2. 算 法 应 用 


FARE PRP SEA Bl n AS a AE AE 
提取 类 别 特征 码 ， 然后 将 如 图 10- 10~ 图 10-12 所 > 
风景 、 瀑 布 风景 这 3 个 分 类 中 。 





类 别 各 准备 3 个 样本 图 像 ， 
:的 3 个 re 图 (ieee 、 树 林 


Sits 
=z} 
Py 
2 
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图 10-10 ”蓝天 风景 


3.Python 实 现 

1) 将 图 10-10~ 图 10-12 分 别 从 上 到 下 、 从 左 到 右 分 割 成 若干 块 状 区 域 ,对 每 块 区 域 的 
图 像 像素 特征 进行 提取 后 ， 形 成 这 3 个 待 分 类 图 像 的 特征 码 。 下 面 的 代 和 PR 
人 以 待 分 类 图 像 为 参数 调用 该 函数 ， 完 成 特征 码 计 
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图 10-12 ”瀑布 风景 





def readpic(fn): 
# 返 回 图 像 特征 码 
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fnimg = cv2.imread(fn) 

img=cv2.resize(fnimg, (800,600) ) 

w=img.shape[1] 

h=img.shape[0] 

w_interval=w/w_fg 

h_interval=h/h_fg 

alltz=[] 

alltz.append([]) 

alltz.append([]) 

alltz.append([]) 

for now_h in xrange(0,h,h_interval): 

for now_w in xrange(0,w,w_interval): 

b = img[now_h:now_h+h_interval, now_w:now_w+w_interval,0] 
g = img[now_h:now_h+h_interval, now_w:now_w+w_interval,1] 
r = img[now_h:now_ht+h_interval, now_w:now_w+w_interval, 2] 
btz=np.mean(b) 
gtz=np.mean(g) 
rtz=np.mean(r) 
alltz[0].append(btz) 
alltz[1].append(gtz) 
alltz[2].append(rtz) 

return alltz 





pera 人 通过 每 个 类 别 所 有 样本 的 区 域 特征 的 平均 值 ， 提 取 类 别 特征 。 
SY Pp: 








# 读 取 图 像 ， 提 取 每 类 图 像 的 特征 





for ii in xrange(1, picflag+1): 

smp_x=[] 

b_tz=np.array([0,0,0]) 

g_tz=np.array([0,0,0]) 

r_tz=np.array([0,0,0]) 

mytz=np.zeros((3,w_fg*h_fg) ) 

for jj in xrange(1,3): 
fn='p'+str(ii)+'-'+str(jj)+'.png' 
tmptz=readpic(fn) 
mytzt+=np.array(tmptz) 

mytz/=3 

train_x.append(mytz[0].tolist()+mytz[1].tolist()+mytz[2].tolist()) 





3) EIRA REET 5 EMP ET ARES, BE BUI IES 
所 属 分 类 。 下 面 的 代码 计算 了 ptest3.png 图 像 与 每 个 类 别 特征 码 的 余 弱 相 似 度 。 








fn='ptest3.png' 
testtz=np.array(readpic(fn) ) 
simtz=testtz[0].tolist()+testtz[1].tolist()+testtz[2].tolist() 
maxtz=0 
nowi=0 
for i in xrange(0,picflag): 
nowsim=get_cossimi(train_x[i],simtz) 
if nowsim>maxtz: 
maxtz=nowsim 
nowi=i 
print u'%s 属 于 第 


%d 类 


'%(fn,nowi+1) 





完整 的 Python 代 码 如 下 : 





#!/usr/bin/env python 
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#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
#10-7.py 

# 余 弦 距 离 识 别 图 像 类 型 


import numpy as np 
import cv2 
print u' 正 在 处 理 中 





w_fg=20 

h_fg=15 

picflag=3 

def readpic(fn): 
# 返 回 图 像 特 征 码 














fnimg = cv2.imread(fn) 
img=cv2.resize(fnimg, (800, 600) ) 
w=img.shape[1] 
h=img.shape[0] 
w_interval=w/w_fg 
h_interval=h/h_fg 
alltz=[] 
alltz.append([]) 
alltz.append([]) 
alltz.append([]) 
for now_h in xrange(0,h,h_interval): 
for now_w in xrange(0,w,w_interval): 
b img [now_h:now_h+h_interval, now_w:now_wtw_interval, 0] 
g img [now_h:now_h+h_interval, now_w:now_wtw_interval,1] 
r img [now_h:now_h+h_interval, now_w:now_wtw_interval, 2] 
btz=np.mean(b) 
gtz=np.mean(g) 
rtz=np.mean(r) 
alltz[0].append(btz) 
alltz[1].append(gtz) 
alltz[2].append(rtz) 
return alltz 
def get_cossimi(x,y): 
myxX=np.array(x) 
myy=np.array(y) 
cosi=np.sum(myx*myy) 
cos21=np.sqrt(sum(myx*myx) ) 
cos22=np.sqrt(sum(myy*myy) ) 
return cosi/float(cos21*cos22) 
#X 和 


d 样 本 初始 化 


train x =[] 
d=[] 
# 读 取 图 像 ， 提 取 每 类 图 像 的 特征 





for ii in xrange(1, picflag+1): 
smp_x=[] 
b_tz=np.array([0,0,0]) 
g_tz=np.array([0,0,0]) 
r_tz=np.array([0,0,0]) 
mytz=np.zeros((3,w_fg*h_fg) ) 
for jj in xrange(1,3): 
fn='p'+str(ii)+'-'+str(jj)+'.png' 
tmptz=readpic(fn) 
mytzt+=np.array(tmptz) 
mytz/=3 
train_x.append(mytz[0].tolist()+mytz[1].tolist()+mytz[2].tolist()) 
fn='ptest3.png' 
testtz=np.array(readpic(fn) ) 
simtz=testtz[0].tolist()+testtz[1].tolist()+testtz[2].tolist() 
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maxtz=0 
nowi=0 
for i in xrange(0,picflag): 
nowsim=get_cossimi(train_x[i],simtz) 
if nowsim>maxtz: 
maxtz=nowsim 
nowi=i 
print u'%s 属 于 第 


%d 类 


'%(fn,nowi+1) 
fn='ptest1.png' 
testtz=np.array(readpic(fn) ) 
simtz=testtz[0].tolist()+testtz[1].tolist()+testtz[2].tolist() 
maxtz=0 
nowi=0 
for i in xrange(0,picflag): 
nowsim=get_cossimi(train_x[i],simtz) 
if nowsim>maxtz: 
maxtz=nowsim 
nowi=i 
print u'%s 属 于 第 


%d% 


'%(fn, nowi+1) 
fn='ptest2.png' 
testtz=np.array(readpic(fn) ) 
simtz=testtz[0].tolist()+testtz[1].tolist()+testtz[2].tolist() 
maxtz=0 
nowi=0 
for i in xrange(0,picflag): 
nowsim=get_cossimi(train_x[i],simtz) 
if nowsim>maxtz: 
maxtz=nowsim 
nowi=i 
print u'%s 属 于 第 


%d% 


'%(fn, nowi+1) 





运行 上 述 代 码 ， 观 察 下 面 的 运行 结果 ， 可 见 对 算法 任务 中 列举 的 图 像 识别 效果 不 





正在 处 理 中 





ptest3.png 属 于 第 


3 类 


ptest1.png 属 于 第 


1% 


ptest2.png 属 于 第 


2 类 
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本 闻 中 每 个 类 别 仅 使 用 了 3 个 样本 ， 基 于 余弦 相似 度 的 算法 在 样本 量 较 小 的 情况 下， 





效果 其 实 不 是 最 佳 的 。 例 如 : 在 测试 图 像 中 加 入 另 一 张 测 试图 ， 要 用 基于 余弦 相似 度 算 法 
将 它 分 类 ， 那 会 怎样 ? 修改 10-7.py， 代 码 如 下 : 





#!/usr/bin/env python 

#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 

#10-8.py 

# 余 弦 距 离 识 别 图 像 类 型 ， 有 一 张 图 像 不 能 正确 识别 








import numpy as np 
import cv2 
print u' 正 在 处 理 中 





fn='ptest22.png' 
testtz=np.array(readpic(fn)) 
simtz=testtz[0].tolist()+testtz[1].tolist()+testtz[2].tolist() 
maxtz=0 
nowi=0 
for i in xrange(0,picflag): 
nowsim=get_cossimi(train_x[i],simtz) 
if nowsim>maxtz: 
maxtz=nowsim 
nowi=i 
print u'%s 属 于 第 


%d% 


'%(fn, nowi+1) 





程序 运行 结果 如 下 : 





正在 处 理 中 





ptest3.,png 属 于 第 


3 类 





ptest1.png 属 于 第 


1% 





ptest2.png 属 于 第 


2% 


ptest22.png 属 于 第 
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3% 





从 上 述 结果 看 ， 图 像 ptest22.png〈 如 图 10-13 所 示 ) 被 错误 地 分 到 了 第 三 类 ， 实 际 它 
属于 第 三 类 树林 风景 图 像 。 





图 10-13” 待 分 类 图 像 





PCA 算 法 基于 变量 协 方差 逢 阵 对 信息 进行 压缩 和 处 理 ， 通 常用 了 于 数据 降 维 ， 可 将 它 
H FERRIE RE REHE, e r E E 当 提 取 的 图 像 特征 维度 比较 高 
时 ， 为 了 简化 计算 量 以 及 存储 空间 ， 需 要 对 这 些 高 维 数据 进行 一 定 程度 上 的 降 维 ， 并 尽量 
ia eae 此 外 ，PCA 鼻 法 还 可 应 用 于 图 像 矩 阵 ， 它 能 找 ELENA. 去 除 掉 那 
些 变化 不 大 的 维 ， 这 样 能 更 有 效 地 提取 图 像 明 显 特征 ， 便 于 后 期 识别 算法 并 进一步 加 工 ， 
因为 图 像 特征 组 含有 的 不 明显 的 特征 值 将 会 影响 识别 的 精度 。 


应 用 PCA 降 维 技术 ， 对 上 节 讲 述 的 图 像 特征 码 算法 进行 改进 ， 返 回 图 像 特征 码 。 下 
面 是 用 Python 实现 的 基于 PCA 的 图 像 特 征 码 算法 。 








wwniwai bbt. cam DREA ÉE 














有 


def readpic(fn): 
# 返 回 图 像 特征 码 














fnimg = cv2.imread(fn) 
img=cv2.resize(fnimg, (500,400)) 
w=img.shape[1] 
h=img.shape[0] 
w_interval=w/20 
h_interval=h/10 
alltz=[] 
for now_h in xrange(0,h,h_interval): 
for now_w in xrange(0,w,w_interval): 
img [now_h:now_h+h_interval, now_w:now_wtw_interval, 0] 
img [now_h:now_h+h_interval, now_w:now_wtw_interval,1] 
img [now_h:now_h+h_interval, now_w:now_wtw_interval, 2] 
btz=np.mean(b) 
gtz=np.mean(g) 
rtz=np.mean(r) 
alltz.append([btz,gtz,rtz]) 
result_alltz=np.array(alltz).T 
pca = mlpy.PCA() 
pca.learn(result_alltz) 
result_alltz = pca.transform(result_alltz, k=len(result_alltz)/2) 
result_alltz =result_alltz.reshape(len(result_alltz) ) 
return result_alltz 


g 
r 





FAIA E SVM ER PS AAA ET A R PCA ER E RRE 
码 ， 然 后 进一步 分 析 和 计算 ， 得 到 图 像 所 属 类 别 。 





10.3.3 ”基于 神经 网 络 的 图 像 分 类 


基于 神经 网 络 的 图 像 分 类 算法 比 余弦 相似 度 分 类 算法 的 普 适 性 更 好 ， 准 确 率 更 高 。 
1. 算 法 描述 

神经 网 络 图 像 分 类 算法 首先 通过 PCA 技 术 提取 样本 图 像 特 征 码 与 待 分 类 图 像 特征 
码 ， 然 后 将 特征 码 送 入 神经 网 络 进行 训练 ， 让 神经 网 络 学 习 每 图 像 的 特征 ， 最 后 将 
未 知 类 别 图 像 送 入 神经 网 络 ， 自 动 识别 它 的 类 型 。 其 步骤 如 下 : 

1) 基于 PCA 技 术 提 取 每 个 样本 的 图 像 特征 码 。 

2) 根据 样本 特征 码 生成 输入 项 ， 根 据 样本 所 属 类 别 生成 对 应 的 输出 项 。 

3) 将 输入 与 输出 项 送 入 非 线性 神经 网 络 训练 。 

4) 基于 PCA 技 术 生 成 待 分 类 图 像 的 特征 码 。 

D 将 竺 分 类 图 像 的 特征 码 送 入 神经 网 络 仿真 测试 ， 根 据 神经 网 络 输出 项 判断 其 所 属 


类 别 。 
2. 输 出 目标 设计 
神经 网 络 的 输出 目标 以 及 输出 函数 的 设计 应 本 着 灵活 实用 的 原则 。 在 本 例 中 ， 神 经 
网 络 的 输出 值 为 3 个 图 像 类 别 ， 用 数字 1~3 来 表示 ， 但 不 能 直接 将 数字 作为 目标 输出 值 。 
常用 的 表示 方式 有 以 下 几 种 。 
.将 数字 转换 为 1 以 内 的 小 数 。 比 如 : 乘 以 输出 值 的 最 大 数 的 倒数 进行 调整 等 。 
-按照 二 进 制 编码 的 思路 ， 将 其 设计 为 如 下 形式 : 


> 
六 
x 





uy 
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人 
Ke J: 


神经 网 络 输出 值 = 输出 目标 值 的 最 大 值 所 在 的 数组 索引 
3.Python 实 现 
下 面 来 看 看 图 像 特征 码 计算 ， 代 码 如 下 : 





def readpic(fn): 
# 返 回 图 像 特征 码 














fnimg = cv2.imread(fn) 
img=cv2.resize(fnimg, (500,400) ) 
w=img.shape[1] 
h=img.shape[0] 
w_interval=w/20 
h_interval=h/10 
alltz=[] 
for now_h in xrange(0,h,h_interval): 
for now_w in xrange(0,w,w_interval): 
b = img[now_h:now_h+h_interval, now_w:now_w+w_interval,0] 
g = img[now_h:now_h+h_interval, now_w:now_w+w_interval,1] 
r = img[now_h:now_h+h_interval, now_w:now_wtw_interval, 2] 
btz=np.mean(b) 
gtz=np.mean(g) 
rtz=np.mean(r) 
alltz.append([btz,gtz,rtz]) 
result_alltz=np.array(alltz).T 
pca = mlpy.PCA() 
pca.learn(result_alltz) 
result_alltz = pca.transform(result_alltz, k=len(result_alltz)/2) 
result_alltz =result_alltz.reshape(len(result_alltz) ) 
return result_alltz 





接着 是 输入 与 输出 项 初始 化 。 代 码 如 下 : 





#X 和 


d 样 本 初始 化 


train_x =[] 

d=[] 

sp_d=[] 
sp_d.append([0,0,1]) 
sp_d.append([0,1,0]) 
sp_d.append([1,0,0]) 
# 读 取 图 片 


for ii in xrange(1,4): 
for jj in xrange(1,4): 
fn='p'+str(ii)+'-'+str(jj)+'.png' 
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pictz=readpic(fn) 

train_x.append(pictz) 

d.append(sp_d[ii-1]) 
myinput=np.array(train_x) 
mytarget=np.array(d) 





下 面 来 看 看 训练 效果 。 误 差 曲线 如 图 10-14 所 示 。 
10 


error (default SSE) 


N 


0 10 20 30 40 50 
Epoch number 
图 10-14 ”误差 曲线 
程序 运行 后 ， 识 别 效果 如 下 : 





训练 神经 网 络 完 毕 


对 样本 进行 测试 


[1，1，1，2，2，2，3，3，3] 进 行 仿真 


===ptest3.png=== 

[[ ©.96680714 0.00471284 -0.04523491] ] 
[3] 

===ptest1.png=== 

[[ ©.10858063 -0.00820875 0.95785349]] 
[1] 

===ptest2.png=== 

[[ ©.01738297 0.99945777 -0.01017012]] 
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[2] 

===ptest21.png=== 

[[ 0.95422417 ©.00308943 0.12213834]] 
[3] 

===ptest22.png=== 

[[-9.26776152 0.99953727 -0.12122857]] 
[2] 











最 后 几 行 表明 ， 无 法 被 余弦 相似 度 正确 分 类 的 ptest22.png 被 神经 网 络 分 类 成 功 ， 但 
test21.png《 如 图 10-15 所 示 〉 被 错误 分 类 。 因 为 神经 网 络 与 SYM 的 不 同 之 处 在 于 ， 神 经 
bese een E PIRAT UZA 《本 例 仅 使 用 3 个 样本 ) ， 否 则 不 一 定 能 取得 更 好 的 识 


完整 的 Python 代码 如 下 : 





~ Ai nt oF 
图 10-15 ”错误 分 类 的 图 像 





#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
#10-9.py 

#PCA 加 上 人 工 神 经 网 络 识别 图 像 类 型 
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import numpy as np 
import pylab as pl 
import neurolab as nl 
import cv2 
import mlpy 
print u' 正 在 处 理 中 





def getresult(simjg): 


jg=[] 

for j in xrange(0,len(simjg)): 
maxjg=-2 
nowii=0 


for i in xrange(0,len(simjg[0])) 
if simjg[j][i]>maxjg: 
maxjg=simjg[j][i] 
nowii=i 
jg.append(len(simjg[0] ) -nowii) 
return jg 
def readpic(fn): 
# 返 回 图 像 特 征 码 














fnimg = cv2.imread(fn) 
img=cv2.resize(fnimg, (500,400)) 
w=img.shape[1] 
h=img.shape[0] 
w_interval=w/20 
h_interval=h/10 
alltz=[] 
for now_h in xrange(0,h,h_interval): 
for now_w in xrange(0,w,w_interval): 
b img [now_h:now_h+h_interval, now_w:now_wtw_interval, 0] 
g img [now_h:now_h+h_interval, now_w:now_wtw_interval,1] 
r img [now_h:now_h+h_interval, now_w:now_wtw_interval, 2] 
btz=np.mean(b) 
gtz=np.mean(g) 
rtz=np.mean(r) 
alltz.append([btz,gtz,rtz]) 
result_alltz=np.array(alltz).T 
pca = mlpy.PCA() 
pca.learn(result_alltz) 
result_alltz = pca.transform(result_alltz, k=len(result_alltz)/2) 
result_alltz =result_alltz.reshape(len(result_alltz) ) 
return result_alltz 
#X 和 


d 样 本 初始 化 


train_x =[] 

d=[] 

sp_d=[] 
sp_d.append([0,0,1]) 
sp_d.append([0,1,0]) 
sp_d.append([1,9,0]) 
# 读 取 图 像 


for ii in xrange(1,4): 
for jj in xrange(1,4): 
fn='p'+str(ii)+'-'+str(jj)+'.png' 
pictz=readpic(fn) 
train_x.append(pictz) 
d.append(sp_d[ii-1]) 
myinput=np.array(train_x) 
mytarget=np.array(d) 
mymax=np.max(myinput ) 
netminmax=[ ] 
for i in xrange(0,len(myinput[0])): 
netminmax.append([0,mymax] ) 
print u'\n 正 在 建立 神经 网 络 
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bpnet = nl.net.newff(netminmax, [5, 3]) 
print u"'\n 训 练 神经 网 络 中 





err = bpnet.train(myinput, mytarget, epochs=800, show=5, goal=0.2) 
if err[len(err)-1]>0.4: 
print u'\n 训 练 神经 网 络 失败 


i NI 
else: 
print u'\n 训 练 神经 网 络 完 毕 


pl.subplot(111) 

pl.plot(err) 

pl.xlabel('Epoch number ') 
pl.ylabel('error (default SSE)') 
print u" 对 样本 进行 测试 





simd= bpnet.sim(myinput) 
mysimd=getresult(simd) 
print mysimd 

print u" 进 行 仿真 


testpictz=np.array([readpic('ptest3.png')]) 
simtest=bpnet.sim(testpictz) 
mysimtest=getresult(simtest) 

print "===ptest3.png===" 

print simtest 

print mysimtest 
testpictz=np.array([readpic('ptest1.png')]) 
simtest=bpnet.sim(testpictz) 
mysimtest=getresult(simtest) 

print "===ptest1.png===" 

print simtest 

print mysimtest 
testpictz=np.array([readpic('ptest2.png')]) 
simtest=bpnet.sim(testpictz) 
mysimtest=getresult(simtest) 

print "===ptest2.png===" 

print simtest 

print mysimtest 
testpictz=np.array([readpic( 'ptest21.png')]) 
simtest=bpnet.sim(testpictz) 
mysimtest=getresult(simtest) 

print "===ptest21.png===" 

print simtest 

print mysimtest 
testpictz=np.array([readpic('ptest22.png')]) 
simtest=bpnet.sim(testpictz) 
mysimtest=getresult(simtest) 

print "===ptest22.png===" 

print simtest 

print mysimtest 

pl.show() 





10.3.4 ”基于 SVM 的 图 像 分 类 
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SVM 图 像 分 类 算法 首先 通过 PCA 技 术 提 取样 本 图 像 特征 码 与 待 分 类 图 像 特 征 码 ， 然 
后 将 特征 码 送 入 SVM 进行 训练 ， 学 习 每 个 类 别 图 像 的 特征 ， 最 后 将 未 知 类 别 图 像 送 入 
SVM 仿真 测试 ， 自 动 识 别 它 的 类 型 。 步 又 如 下 : 

1) 基于 PCA 技 术 提 取 每 个 样本 的 图 像 特征 码 。 

2) 根据 样本 特征 码 生成 输入 项 ， 根 据 样本 所 属 类 别 生 成 对 应 的 输出 项 。 

3) 将 输入 与 输出 项 送 入 SVM 训 练 。 

4) 基于 PCA 技 术 生成 待 分 类 图 像 的 特征 码 。 

5) 将 待 分 类 图 像 的 特征 码 送 入 SVM 仿真 测试 ， 根 据 SVM 输 出 项 判断 其 所 属 类 别 。 

其 中 ，SVM 的 输出 目标 可 以 直接 使 用 类 别 序号 〈 在 本 例 中 为 数字 1~3) 。 
2.Python 实 现 

1) 输入 与 输出 项 的 初始 化 。 代 码 如 下 : 


— 








#X 和 


d 样 本 初始 化 


train_x =[] 
d=[] 
# 读 取 图 像 ， 提 取 每 类 图 像 的 特征 





for ii in xrange(1,picflag+1): 

smp_x=[] 

mytz=np.zeros((3,w dia fg)) 

for jj in xrange(1, 4): 
fn='p'+str(ii)+'-'+str(jj)+'.png' 
tmptz=readpic(fn) 
train_x.append(tmptz.tolist()) 
d.append(ii) 





2) SVM 训练 与 仿真 训练 。 代 码 如 下 : 





x=np.array(train_x) 

y=np.array(d) 

svm = mlpy.LibSvm(svm_type='c_svc', kernel_type='poly', gamma=50) 
svm.learn(x, y) 

print svm.pred(x) 





3) 识别 效果 。 如 下 所 示 : 


正在 处 理 中 








[ de De 1 De Be 2s 8 3. Be] 
ptest3.png 属 于 第 





3 类 


ptest1.png 属 于 第 
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ptest2.png 属 于 第 


2 类 


ptest21.png 属 于 第 


2 类 


ptest22.png 属 于 第 


2 类 








相对 神经 网 络 而 言 ， 在 每 个 类 别 仪 有 3 个 样本 的 情况 下 ， 所 有 的 测试 图 像 得 到 了 正 


IIR 


以 下 是 完整 的 代码 : 





#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
#10-10.py 

#PCA 加 上 





SVM 识 别 图 像 类 型 


import numpy as np 
import cv2 
import mlpy 
print u' 正 在 处 理 中 





picflag=3 
def readpic(fn): 
# 返 回 图 像 特征 码 














fnimg = cv2.imread(fn) 
img=cv2.resize(fnimg, (400, 200) ) 
w=img.shape[1] 
h=img.shape[0] 
w_interval=w/w_fg 
h_interval=h/h_fg 
alltz=[] 
for now_h in xrange(0,h,h_interval): 
for now_w in xrange(0,w,w_interval): 
b = img[now_h:now_h+h_interval, now_w:now_w+w_interval,0] 
g img [now_h:now_h+h_interval, now_w:now_wtw_interval,1] 
r img [now_h:now_h+h_interval, now_w:now_wtw_interval, 2] 
btz=np.mean(b) 
gtz=np.mean(g) 
rtz=np.mean(r) 
alltz.append([btz,gtz,rtz]) 
result_alltz=np.array(alltz).T 
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cw 





pca = mlpy.PCA() 
pca.learn(result_alltz) 
result_alltz = pca.transform(result_alltz, k=len(result_alltz)/2) 
result_alltz =result_alltz.reshape(len(result_alltz) ) 
return result_alltz 
#X 和 


d 样 本 初始 化 


train_x =[] 
d=[] 
# 读 取 图 像 ， 提 取 每 类 图 像 的 特征 





for ii in xrange(1,picflag+1): 
smp_x=[] 
mytz=np.zeros((3,w_fg*h_fg) ) 
for jj in xrange(1,4): 
fn='p'+str(ii)+'-'+str(jj)+'.png' 
tmptz=readpic(fn) 
train_x.append(tmptz.tolist()) 
d.append(ii) 
xX=np.array(train_x) 
y=np.array(d) 
svm = mlpy.LibSvm(svm_type='c_svc', kernel_type='poly', gamma=50) 
svm.learn(x, y) 
print svm.pred(x) 
fn='ptest3.png' 
testtz=np.array(readpic(fn) ) 
nowi=svm.pred(testtz) 
print u'%s 属 于 第 


%d% 


'%(fn, nowi) 

fn='ptest1.png' 
testtz=np.array(readpic(fn)) 
nowi=svm.pred(testtz) 

print u'%s 属 于 第 


%d% 


'%(fn, nowi) 

fn='ptest2.png' 
testtz=np.array(readpic(fn)) 
nowi=svm.pred(testtz) 

print u'%s 属 于 第 


%d% 


'%(fn, nowi) 

fn='ptest21.png' 
testtz=np.array(readpic(fn) ) 
nowi=svm.pred(testtz) 

print u'%s 属 于 第 


%d% 


'%(fn, nowi) 

fn='ptest22.png' 
testtz=np.array(readpic(fn)) 
nowi=svm.pred(testtz) 

print u'%s 属 于 第 


%d 类 
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'%(fn, nowi) 
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10.4 ”高 斯 噪声 生成 


噪声 可 理解 为 妨碍 人 们 的 感 oo SMA, AAR 
种 会 妨碍 人 们 接受 其 信息 NOLS ol BOWE 噪声 在 理论 上 可 以 定义 为 < 不 可 预 _ 
测 ， 员 能 用 概率 统计 的 方法 来 认识 的 随机 误差 ”。 etre eater Mt 
性 越 来 越 明显 。 图 像 噪声 按 其 产生 的 原因 可 以 分 为 : 


1) 外 部 噪声 。 指 系统 外 部 的 干扰 以 电磁 波 或 经 电源 串 进 系统 内 部 而 引起 的 噪声 。 如 
电气 设备 、 天 体 放电 现象 等 引起 的 噪声 。 


2) 内 部 噪声 。 一 般 可 分 为 以 下 四 种 : 


:由 光 和 电 的 基本 性 质 所 引起 的 噪声 。 如 电流 的 产生 是 由 电子 或 空 六 粒子 的 集合 ， 定 
向 运动 所 形成 的 。 


:电器 的 机 械 运动 产生 的 噪声 。 如 各 种 接头 因 拌 动 引 起 电流 的 变化 所 产生 的 噪声 ， 磁 
头 、 磁 带 等 抖动 或 仪器 的 抖动 等 。 


和 





















































ma o A A E 
噪声 等 


人 Fe e l SD EERE, YER SR RELAIS OE) 需要 
人 为 地 生成 一 些 噪声 来 模拟 现实 的 环境 。 


ee 高 斯 噪声 进行 噪声 仿 
真 。 具 体 方法 是 : 在 每 个 点 的 灰 度 值 上 加 上 一 个 噪声 值 ， 声 值 的 产生 方式 为 Box-Muller 
算法 生成 高 e Bos Maller far" HLS 种 方 算法 隐 舍 的 原理 非常 深 
奥 ， 但 是 结果 却 相 当 简 单 。 它 一 般 是 ee Wer OCT 基本 思想 是 先 得 到 服 
SUSAR EA A EE TE ELIE OD A Box-Muller 算 法 
的 具体 过 程 如 下 ; 


1) 假设 图 像 的 灰 阶 范围 是 [0，G-1」。 取 o>0: 它 的 值 越 小 时 ， 相 应 的 噪声 也 越 


小 。 


2) 针对 每 对 水 平 相 邻 的 像素 CK, yd, Cx, ytl) 产生 一 对 位 于 LO, 1] 的 独立 随 
机 数 r 和 @。 


Li=0 cos(2n9) -ir 
Ly=0 sin(n) \-ir 


ERP, Z1 是 Z2 独立 的 有 0 均值 和 c 方 差 的 正 态 分 布 。 
4) 设 g 为 输入 图 像 ， 计 算 以 下 值 ; 



















































































3) 计算 以 下 值 : 
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0 f(xytl)s0 
ftlFi6l  fay+1p6-l 
(xy f l) 入 化 


6) 反复 执行 第 3 至 第 5 步 ， 直 到 像素 点 处 理 完毕 为 止 。 
下 面 以 Python 代码 来 实现 对 某 图 像 的 加 高 斯 噪声 的 操作 ， 如 程序 10-11.py 所 示 。 





# -*- coding: utf-8 -*- 
# 加 性 零 均 值 高 斯 噪声 


#code:myhaspl@myhasp1.com 

#10-11.py 

import cv2 

import numpy as np 

fn="test112.jpg" 

myimg=cv2.imread(fn) 

img=cv2.cvtColor(myimg, cv2.COLOR_BGR2GRAY ) 
param=30 
# 灰 阶 范围 














grayscale=256 
w=img.shape[1] 
h=img.shape[0] 
newimg=np.zeros((h,w),np.uints) 
for x in xrange(0,h): 
for y in xrange(0,w, 2): 
ri=np.random.random_sample( ) 
r2=np.random.random_sample( ) 
z1=param*np.cos(2*np.pi*r2)*np.sqrt((-2)*np.log(r1) ) 
z2=param*np.sin(2*np.pi*r2)*np.sqrt((-2)*np.log(r1) ) 
fxy=int (img[x, y]+z1) 
fxyi=int (img[x, y+1]+z2) 
#f (Xx,y) 
if fxy<0: 
fxy_val=0 
elif fxy>grayscale-1: 
fxy_val=grayscale-1 
else: 
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fxy_val=fxy 
#f(x,yt1) 
if fxy1<0: 
fxy1_val=0 
elif fxy1>grayscale-1: 
fxyi_val=grayscale-1 
else: 
fxyi_val=fxy1 
newimg[x, y]=fxy_val 
newimg[x, y+1]=fxy1_val 
cv2.imshow('preview', newimg) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 





运行 程序 10-11.py， 结 果 如 图 10-16 所 示 。 





图 10-16 ” 灰 度 图 像 高 斯 噪声 
程序 10-12.py 实 现 了 对 彩色 图 像 增 加 高 斯 噪声 ， 代 码 如 下 所 示 : 





# -*- coding: utf-8 -*- 
# 加 性 零 均 值 高 斯 噪声 


#code:myhaspl@myhasp1.com 
#10-12.py 

import cv2 

import numpy as np 
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程序 10-12.py 在 彩色 图 像 中 人 为 地 增加 了 若干 
ZN o 


fn="test112.jpg" 
myimg=cv2.imread(fn) 
img=myimg 

param=30 

# 灰 阶 范围 


grayscale=256 
w=img.shape[1] 
h=img.shape[0] 


newimg=np.zeros((h,w,3),np.uint8) 


for x in xrange(0,h): 


for y in xrange(0,w, 2): 


r1=np. random. random_sample() 
r2=np. random. random_sample( ) 
z1=param*np.cos(2*np.pi*r2)*np.sqrt((-2)*np.log(r1) ) 
z2=param*np.sin(2*np.pi*r2)*np.sqrt((-2)*np.log(r1) ) 
fxy_O=int (img[x, y,9]+z1) 

fxy1_0=int (img[x, y+1, 0]+z2) 
fxy_1=int (img[x, y,1]+z1) 

fxy1_1=int (img[x, y+1,1]+z2) 
fxy_2=int (img[x, y,2]+z1) 

fxy1_2=int (img[x, y+1, 2]+z2) 


#f (x,y) 
if fxy_0<0: 
fxy_val_0=0 
elif fxy_0>grayscale-1: 
fxy_val_O=grayscale-1 
else: 
fxy_val_0=fxy_0 
if fxy_1<0: 
fxy_val_1=0 
elif fxy_1>grayscale-1: 
fxy_val_1=grayscale-1 
else: 
fxy_val_1=fxy_1 
if fxy_2<0: 
fxy_val_2=0 
elif fxy_2>grayscale-1: 
fxy_val_2=grayscale-1 
else: 
fxy_val_2=fxy_2 
#f (x, y+1) 
if fxy1_0<0: 
fxy1_val_0=0 
elif fxy1_0>grayscale-1: 


fxy1_val_O=grayscale-1 


else: 
fxy1_val_0=fxy1_0 
if fxy1_1<0: 
fxy1_val_1=0 
elif fxy1_1>grayscale-1: 


fxy1_val_1=grayscale-1 


else: 
fxy1_val_1=fxy1_1 
if fxy1_2<0: 
fxy1_val_2=0 
elif fxy1_2>grayscale-1: 


fxy1_val_2=grayscale-1 


else: 

fxy1_val_2=fxy1_2 
newimg[x, y,0]=fxy_val_O 
newimg[x, y,1]=fxy_val_1 
newimg[x, y,2]=fxy_val_2 


newimg[x, y+1,0]=fxy1_val_0 
newimg[x, y+1,1]=fxy1_val_1 
newimg[x, y+1,2]=fxy1_val_2 


cv2.imshow('preview', newimg) 


cv2.waitKey() 
cv2.destroyAllwindows( ) 
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序 ， 效 果 如 图 10-17 





图 10-17 “彩色 图 像 加 高 斯 噪声 
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10.5 二 值 化 


图 像 的 二 值 化 ， 就 是 将 图 像 上 像素 点 的 灰 度 值 设置 为 0 或 255， 也 就 是 将 整个 图 像 呈 
现 出 明显 的 只 有 黑 和 白 的 视觉 效果 ， 最 常用 的 方法 就 是 设 定 一 个 阐 值 7， 用 T 将 图 像 的 数 
据 分 成 两 部 分 ， 大 于 的 像素 磊 和 小 于 T 的 像素 群 。 








10.5.1 threshold 


可 调用 OpenCV 的 threshold 实 现 二 值 化 ，Python 调 用 此 方法 的 格式 如 下 : 





cv2.threshold(src, thresh, maxval, type[, dst]) - 


retval, dst 





该 方法 主要 有 以 下 核心 参数 : 

‘src: 输入 数组 ( 单 通道 、8 位 或 32 位 〉。 
“dst: 二 值 化 输出 结果 的 矩阵 。 

‘thresh: BJE- 

-maxval: 二 值 化 中 除 0 以 外 的 其 他 值 。 
‘type: 二 值 化 类 别 。 主 要 有 以 下 几 种 : 
-THRESH_BINARY 


maxval ste(x,y)>thresh 


dst(x JF () 其 化 


*THRESH_BINARY_INV 


0 — sre(x,y)>thresh 


Ost) aval 其 人 


‘THRESH _TRUNC 


mara threshold ste(x,y)>thresh 
a) sy) 其 他 


“THRESH_TOZERO 
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sro(x,)) ste(x,y)>thresh 


dst(x,))= Ly 


-THRESH_TOZERO_INV 
0 —— sro(x,y)>thresh 
Se(X,)) 其 他 


编写 程序 10-13.py， 对 某 图 像 进行 二 值 化 ， 效 果 如 图 10-18 所 示 。 


dst(x,y)- 





#10-13.py 

import cv2 

fn="test3.jpg" 

myimg=cv2.imread(fn) 

img=cv2.cvtColor(myimg, cv2.COLOR_BGR2GRAY ) 

retval, newimg=cv2.threshold(img, 40,255, cv2.THRESH_BINARY ) 
cv2.imshow( 'preview', newimg) 

cv2.waitKey() 

cv2.destroyAllwindows( ) 





10.5.2 adaptiveThreshold 


OpenCV 的 adaptiveIThreshold 函 数 可 完成 自 适 应 二 值 化 ， 也 可 以 提取 边缘 。Python 调 
用 此 方法 的 格式 如 下 : 





cv2.adaptiveThreshold(src, maxValue, adaptiveMethod, thresholdType, blockSize, C[, dst]) >- 


dst 





该 函数 的 核心 参数 如 下 : 


‘block_size: 决定 局 部 闵 值 的 block 的 大 小 ，block 很 小 时 ， 如 block_size=3、5、7 时 ， 
表现 为 边缘 提取 函数 。 当 把 block_size 设 为 比较 大 的 值 时 ， 如 block_size=21、51 等 ， 就 是 


a o 


‘src: 输入 数组 〈 单 通道 、8 位 或 32 位 ) 。 
‘dst: 二 值 化 输出 结果 的 矩阵 。 


‘thresholdType: 二 值 化 类 型 ， 为 THRESH_BINARY 或 THRESH_BINARY_INV， 见 
10.5.1 节 对 该 参数 的 说 明 。 


编写 程序 10-14.py， 进 行 二 值 化 ， 效 果 如 图 10-19 所 示 。 





#10-14.py 

import cv2 

fn="test3.jpg" 

myimg=cv2.imread(fn) 

img=cv2.cvtColor(myimg, cv2.COLOR_BGR2GRAY ) 
newimg=cv2.adaptiveThreshold(img, 255, cv2.ADAPTIVE_THRESH_MEAN_C, cv2.THRESH_BINARY, 5, 2) 
cv2.imshow('preview', newimg) 

cv2.waitKey() 
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cv2.destroyAllwindows( ) 








图 10-18 ZEM 





图 10-19 adaptiveThreshold 二 值 化 


程序 10-15.py 演 示 了 通过 二 值 化 提取 边缘 ， 效 果 如 图 10-20 所 示 。 
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#10-15.py 

import cv2 

fn="test3.jpg" 

myimg=cv2.imread(fn) 

img=cv2.cvtColor(myimg, cv2.COLOR_BGR2GRAY ) 
newimg=cv2.adaptiveThreshold(img, 255, cv2.ADAPTIVE_THRESH_MEAN_C, cv2. THRESH_BINARY, 51, 2) 
cv2.imshow('preview', newimg) 

cv2.waitKey() 

cv2.destroyAllwindows( ) 
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图 10-20 二 值 化 提取 边缘 
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10.6 ”插值 与 缩放 
通过 OpenCV 的 resize 函 数 可 实现 插值 与 缩放 。Python 调 用 该 函数 的 格式 如 下 : 








cv2.resize(src, dsize[, dst[, fx[, fy[, interpolation]]]]) - 


dst 








该 函数 的 interpolation 参 数 可 分 别 设 为 INTER_NEAREST (最 近邻 插值 ) 、 
INTER_LINEAR ( 双 线 性 插值 ) 、INTER_AREA (像素 关系 重 采 样 ) 、 





INTER_CUBIC (〈 双 立方 插值 ) 、INTER_LANCZOS4 (8x8 像 素 邻 域内 Lanczos 插 值 ) 。 


程序 10-16.py 演 示 了 插值 与 缩放 的 操作 ， 效 果 如 图 10-21 所 示 。 





# -*- coding: utf-8 -*- 
#10-16.py 

import cv2 
fn="test112.jpg" 
img=cv2.imread(fn) 
w=img.shape[1] 
h=img.shape[0] 

# 放 大 


r 双 立 方 插值 


newimgi=cv2.resize(img, (w*2,h*2),interpolation=cv2.INTER_CUBIC) 
# 放 大 


/ 最 近邻 插值 


newimg2=cv2.resize(img, (w*2,h*2), interpolation=cv2.INTER_NEAREST ) 
# 放 大 


/ 像素 关系 重 采样 


newimg3=cv2.resize(img, (w*2,h*2),interpolation=cv2.INTER_AREA) 
# 缩 小 


/ 像素 关系 重 采样 


newimg4=cv2.resize(img, (300,200),interpolation=cv2.INTER_AREA) 
cv2.imshow( 'preview1', newimg1) 

cv2.imshow( 'preview2', newimg2) 

cv2.imshow( 'preview3', newimg3) 

cv2.imshow( 'preview4', newimg4) 

cv2.waitKey() 

cv2.destroyAllwindows( ) 


E 
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图 10-21 插值 与 缩放 
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仿 射 变换 ， 又 称 仿 射 映射 ， 是 指 在 几何 中 ， 一 个 向 量 空 间 进行 一 次 线性 变换 并 接 上 
一 个 平移 ， 变 换 为 另 一 个 向 量 空间 ， 它 可 对 图 像 进行 缩放 、 旋 转 、 平 衡 等 操作 - 


人 
= 大 二 
上 起 在 齐 次 坐标 上 ， 等 价 于 下 面 的 式 子 ; 
Ja afi 
I le 1) }1 


为 了 表示 仿 射 变换 ， 需 要 使 用 齐 次 坐标 ， 即 用 三 维 向 量 (x, y, 1) 表示 二 维 向 量 ， 
对 于 高 维 来 说 也 是 如 此 。 按 照 这 种 方法 ， 就 可 以 用 矩阵 乘法 表示 变换 。x'=x+ttx ; y=ytty 
变 为 

















i | 0 t\fx 
JLE SNIP 
ARTEI 
A E E E e SA 
cosh -smf 0) 
sinh cosh 0 
0 (0 | 


通过 这 种 方法 ， 使 用 与 前 面 一样 的 矩阵 乘积 可 以 将 各 种 变换 无 颖 地 集成 到 一 起 。 
10.7.2” 仿 射 变换 实例 


1.warpAffine 
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OpenCV 的 warpAffine 函 数 可 实现 仿 射 变换 ，Python 调 用 此 方法 的 格式 如 下 : 





cv2.warpAffine(src, M, dsize[, dst[, f?lags[, borderMode[, borderValue]]]]) - 
dst 


TARR BS BM EN EEE. PREF FEAR: 
dst(x, y)=src(M11 x+M12 y+M13 ，M21 X+M22 y+M23 ) 








2.getRotationMatrix2D 


是 人 Python 调用 此 函数 的 格 
AU pP: 





cv2.getRotationMatrix2D(center, angle, scale) — 


retval 





o 1 (l-a) ‘center ' x- center ' y 
-P a B center + x+(1-a) + center + y 
其 中 ，a 与 B 的 计算 公式 如 下 : 
a=scale:cos angle 


B=scale-sin angle 


程序 10-17.py 演 示 了 仿 射 变换 完成 缩小 并 旋转 的 操作 ， 效 果 如 图 10-22 所 示 。 
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# -*- coding: utf-8 -*- 
#10-17.py 

import cv2 
fn="test3.jpg" 
img=cv2.imread(fn) 
w=img.shape[1] 
h=img.shape[0] 

# 得 到 仿 射 变换 矩阵 ， 完 成 旋转 


# 中 心 


mycenter=(h/2,w/2) 
# 旋 转角 度 


myangle=90 
# 缩 放 尺 度 


myscale=0.5 





图 10-22 {ij pase 
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# 仿 射 变换 完成 缩小 并 旋转 


transform matrix=cv2.getRotationMatrix2D(mycenter,myangle,myscale) 
newimg=cv2.warpAffine(img, transform_matrix, (w,h)) 
cv2.imshow('preview', newimg) 

cv2.waitKey() 

cv2.destroyAllwindows( ) 


二 一 
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10.8 ”透视 投影 与 透视 变换 
10.8.1 透视 投影 原理 


三 维 计算 机 图 形 学 中 另外 一 种 重要 的 变换 是 透视 投影 。 与 平行 投影 治 着 平行 线 将 物 
体 投影 到 图 像 平面 上 人 不同， 透视 投影 是 指 从 投影 中 心 这 一 点 发 出 的 直线 将 物体 投影 到 图 像 
平面 上 。 这 就 意味 着 距 pera 心 越 远 的 投影 越 小 ， 距 离 越 近 的 投影 越 大 。 


最 简单 的 透视 投影 是 将 投影 中 心 作为 坐标 原点 ，z=1 作 为 图 像 平面 ， 这 样 投影 变换 














f= yas 
为 ; Bm = Z, RAE: 
x) (10-0 0) (3 
y| fo 10 Of) 
x) 1001 O}f2 
Ww) \0 0 1 Ol 


上 述 乘法 的 计算 结果 是 Oco Yes o We ) = (x，y，z，z) 。 乘 法 计算 完毕 之 
后 ， 通 常 齐 次 元 素 wc 并 不 为 1， 所 以 为 了 映射 回 真 实 平面 需要 进行 齐 次 除法 ， 即 每 个 元 素 
都 除 以 we : 
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1.WarpPerspective 
OpenCV 提 供 了 WarpPerspective 函 数 ， 可 对 图 像 进行 透视 变换 。Python 调 用 此 函数 的 


式 如 下 





cv2.warpPerspective(src, M, dsize[, dst[, flags[, borderMode[, borderValue]]]]) — 


dst 





该 函数 的 主要 参数 如 下 : 
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:map_matrix: 3x3 变 换 矩 阵 。 
‘flags: 插值 方法 和 以 下 开关 选项 的 组 合 ， 有 以 下 两 种 : 


oa i 填充 所 有 缩小 图 像 的 像素 。 如 果 部 分 像素 落 在 输 
入 图 像 的 边界 外 ， 那 么 它们 的 值 设 定 为 fillval。 


V_WARP_INVERSE MAP: 指定 matrix 是 输出 图 像 到 输入 图 像 的 反 变 换 ， 因 此 
可 以 吉 毛 用 洲 丛 像 村 插值。 否则 ， 函 数 从 map_matrix 得 到 反 变换 。 


:fillval: 用 来 填充 边界 外 面 的 值 。 
该 函数 对 源 图 像 进行 转换 的 计算 公式 如 下 : 


Mux + Moy + Mi Max + Moy + Mz 
Max + Magy + Ms Mat + May + Ms 





dst(x,))=sre 


2.GetPerspectiveTransform 


OpenCV 提 供 了 人 数 ， 以 四 边 形 的 4 个 点 计算 透射 变换 。 
Python 调 用 该 函数 的 格式 如 下 





cv2.getPerspectiveTransform(src, dst) — 


retval 





该 函数 的 主要 参数 如 下 : 

‘src: 输入 IDR 的 四 边 形 顶点 坐标 。 

dst: 输出 的 相应 的 四 边 形 顶点 坐标 。 

该 函数 对 3x3 的 透射 变换 矩阵 的 计算 公式 如 下 : 


l J; Xi 
fy;|=map matrix + |; 
f | 


EHH dsla), selil y), 0,1,2,3 
3. 透 射 变换 矩阵 计算 实例 
程序 10-18.py 演 示 了 如 何 计算 透射 变换 矩阵 。 


# -*- coding: utf-8 -*- 
#10-18.py 
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import cv2 

import numpy as np 
fn="test112.jpg" 
img=cv2.imread(fn) 
w=img.shape[1] 
h=img.shape[0] 

# 得 到 透射 变换 矩阵 


src=np.array([[0,0], [w-1,0], [w-1,h-1],[0,h-1]], dtype = np.float32) 
dst=np.array([[w*0.08,h*0.01], [w*0.8,h*0.25], [w*0.8,h*0.9], [w*0.05,h*0.8]],dtype = np.float32) 
transform_matrix=cv2.getPerspectiveTransform(src, dst) 

# 和 输出 透射 变换 矩阵 


print transform_matrix 
cv2.waitKey() 
cv2.destroyAllwindows( ) 








运行 程序 10-18.py， 输 出 透射 变换 和 矩阵， 结果 如 下 所 示 : 





[ 98634886e-01 -5.70473560e-02 5.12000008e+01] 


[ 8. 
[ 1.66413868e-01 7.60111420e-01 3.59999990e+00] 
[ 3.46695559e-04 -1.11420617e-04 1.00000000e+00] J 





4. 透 射 变换 实例 
程序 10-19.py 演 示 了 透射 变换 ， 效 果 如 图 10-23 所 示 。 





# -*- coding: utf-8 -*- 
#10-19.py 

import cv2 

import numpy as np 
fn="test112.jpg" 
img=cv2.imread(fn) 
w=img.shape[1] 
h=img.shape[0] 

# 得 到 透射 变换 矩阵 


src=np.array([[0,0], [w-1,0], [w-1,h-1],[0,h-1]], dtype = np.float32) 
dst=np.array([[w*0.08,h*0.01], [w*0.8,h*0.25], [w*0.8,h*0.9], [w*0.05,h*0.8]],dtype = np.float32) 
transform_matrix=cv2.getPerspectiveTransform(src, dst) 

print transform_matrix 

# 透 射 变换 完成 变形 


newimg=cv2.warpPerspective(img, transform_matrix, (w,h) ) 
cv2.imshow( 'preview', newimg) 

cv2.waitKey() 

cv2.destroyAllwindows( ) 


ee | 
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图 10-23 ”透射 变换 
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10.9 灰 度 变换 与 图 像 增强 
10.9.1 灰 度 变换 概述 







































































在 计算 机 领域 中 ， 灰 度 (Gray Scale) 数字 图 像 是 每 个 像素 只 有 一 个 采样 颜色 的 图 

这 类 图 像 通 常 显 示 为 从 最 暗黑 色 到 最 亮 的 白色 的 次 度 ， 尽 管理 论 上 这 个 采样 可 以 是 不 
同 深浅 的 任何 颜色 ， 甚 至 可 以 是 个 同 亮度 上 的 不 同 颜 色 。 灰 度 图 像 与 材 白 图 像 不 同 ， 在 计 
算 机 图 像 领域 中 黑白 图 像 只 有 黑白 两 种 着 色 ， 灰 度 图 像 在 钻 色 与 白色 之 间 还 有 很 多 级 的 闫 
色 深度 。 用 于 显示 的 灰 度 图 像 遂 常用 每 个 采样 像素 8 位 的 非 线性 尺度 来 保存 ， 这 样 就 可 以 
有 256 种 灰 度 〔 即 2 的 8 次 方 =256) 了 。 这 种 精度 刚刚 能 够 避免 可 见 的 条 带 失 真 ， 并 且 非 常 
易于 编程 。 灰 度 图 像 是 ~ 种 具有 从 黑 到 白 256 级 灰 度 色 阶 或 等 级 的 单 色 图 像 。 该 图 像 中 的 


每 个 像素 均 朋 8 位 数据 表示 ， 因 此 像素 点 值 介 于 扎 白 间 的 256 种 灰 度 中 的 一 种 。 该 图 像 只 有 
KEER, ABI NOL. 


= 
Xe 
X 
Cs 














aoe ee 
展 图 像 的 对 比 度 ， 使 图 像 变 清 中 
RENH 据 或 菜 种 算术 非 线 
它 将 每 一 个 oa 
的 对 比 度 增 




















10.9.2 ”对 数 变 换 











$ 


AEON KURESE REDA BEAP 展 而 对 高 亮度 区 进行 压缩 ， 简 言 之 就 是 增强 
了 低 值 次 度 的 图 像 细 节 ， 灰 度 非 线性 变换 公式 如 下 


dst=Clog(1+src) 
程序 10-20.py 演 示 了 对 数 变 换 ， 效 果 如 图 10-24 所 示 。 





#10-20.py 

import cv2 

import numpy as np 

fn="test3.jpg" 

myimg=cv2.imread(fn) 

img=cv2.cvtColor(myimg, cv2.COLOR_BGR2GRAY ) 

jg_img=np.array(40*np.log(img+1),np.uint8) 

cv2.imshow('src', img) 

cv2.imshow('dst', jg_img) 

cv2.waitKey() 

cv2.destroyAllwindows( ) 
EM 
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图 10-24 “对 数 变换 


a 左边 的 是 经 过 非 线 性 变换 操作 的 图 ， 右 边 的 是 原 图 ， 左 边 的 低 亮度 区 
{AMI o 





分 段 线性 变换 将 图 像 的 值 域 分 成 多 个 值 域 并 进行 不 同 的 线性 变换 计算 ， 可 以 压缩 基 
ANKRE, TREATED, PILAR PN, MERRTE, WE 
-21.py 所 示 。 








# -*- coding: utf-8 -*- 
# 分 段 线性 变换 


#code:myhaspl@myhasp1.com 
#10-21.py 

import cv2 

import numpy as np 
fn="test4.jpg" 
myimg=cv2.imread(fn) 
img=cv2.cvtColor(myimg, cv2.COLOR_BGR2GRAY ) 
w=img.shape[1] 

h=img.shape[0] 
newimg=np.zeros((h,w),np.uint8) 
# 源 


Ds_min=0 
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Ds_internal=80# 中 间 





Ds_max=255 
# 目 标 


Dd_min=0 
Dd_internal=160#4#/i) 


Dd_max=255 
for m in xrange(h): 
for n in xrange(w): 
if img[m,n]>Ds_min and img[m,n]<=Ds_internal: 
newimg[m,n]=int((Dd_internal-Dd_min)/(Ds_internal-Ds_min) *(img[m,n]-Ds_min)+Dd_min) 
else: 
newimg[m,n]=int ((Dd_max-Dd_internal)/(Ds_max-Ds_internal)*(img[m,n]-Ds_internal)+Dd_internal) 
print ".", 
cv2.imshow('src', img) 
cv2.imshow('dst', newimg) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 








观察 图 10-25， 左 边 是 经 过 分 段 线性 变换 的 图 像 ， 右 边 是 原 图 像 ， 通 过 压缩 高 亮度 
区 ， 扩 展 低 亮度 区 ， 使 图 像 的 比 对 度 变 得 更 强 。 





图 10-25 ”分 段 线性 变换 
程序 10-21.py 的 代码 中 ， 各 变量 的 含义 如 下 : 
.Ds_min 为 源 区 段 的 最 小 值 域 。 

.Ds_internal 为 源 区 段 的 中 间 分 界 值 。 
.Ds_max 为 源 区 段 的 最 大 值 域 。 
Dd_min 为 目标 区 段 的 最 小 值 域 。 
:Dd_internal 为 目标 区 段 的 中 间 分 界 值 。 
:Dd_max 为 目标 区 上段 的 最 大 值 域 。 


10.9.4 ”指数 变换 
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旨 数 变换 的 作用 是 扩展 图 像 的 高 灰 度 级 、 压 缩 低 灰 度 级 ， 可 用 于 亮度 过 高 的 图 像 。 
指数 变换 的 基本 表达 式 如 下 : 


y=bC(X-a) -1 


其 中 ， 参 数 b、c 控 制 曲线 的 变换 形状 ， 参 数 a 控 制 曲线 的 位 置 。 指 数 变 换 与 对 数 变 换 
的 关系 如 图 10-26 所 示 。 


程序 10-22.py 演 示 了 对 太阳 图 像 进行 指数 变换 ， 使 低 亮 度 区 〈 温 度 较 低 的 区 域 ) 不 再 
显示 ， 突 出 亮度 区 〈 温 度 较 高 的 区 域 ) ， 效 果 如 图 10-27 所 示 。 








# -*- coding: utf-8 -*- 
# 指 数 非 线性 变换 


#code:myhaspl@myhaspl.com 

#10-22.py 

import cv2 

import numpy as np 

fn="test5.jpg" 

myimg=cv2.imread(fn) 
img=cv2.cvtColor(myimg, cv2.COLOR_BGR2GRAY ) 
b=1.2 

c=0.2 

a=0.2 
newimg=np.array(np.power(b,c*(img-a))-1,np.uint8) 
cv2.imshow('src', img) 
cv2.imshow( 'dst', newimg) 

cv2.waitKey() 

cv2.destroyAllwindows( ) 





g(x, y) 










对 数 变 换 


指数 变换 


Kx, y) 


图 10-26 ”指数 变换 与 对 数 变换 
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系 图 ， 左 图 的 高 亮度 区 显示 得 到 


图 10-27 指数 变换 








观察 图 10-27， 左 边 是 指数 变换 后 生成 的 图 ， 碳 
出 ， 达 到 了 预期 的 效果 。 

是 当 图 像 的 有 用 数据 的 对 

分 布 。 这 样 就 可 以 用 于 


常用 来 增加 许多 图 像 的 全 局 对 比 度 ， 尤 其 
比 度 相当 接近 的 时 候 。 通 过 这 种 方法 ， 腕 度 可 以 更 好 地 在 直方 图 上 分 
响 整 体 的 对 比 度 。 在 灰 度 图 像 上 使 用 直方 图 均 衡 化 的 方法 如 下 


突 
直方 图 均衡 化 通常 用 来 ! 
YX) EG o 1 
让 ni 表示 灰 度 ji 出 现 的 次 数 ， 这 样 图 像 中 灰 度 为 i 的 像素 出 现 的 概率 


于 RI HaT Vy 
| ee) Ey 0 
= GJ U 








EZ 
Na MAL 


增强 局 部 的 对 比 度 而 不 
设 有 一 灰 度 图 像 ， 
如 下 : 
= 
MPs iE Dd 
其 中 ， MERRNI AL AST RHEL, psi EARR 


图 ， 归 一 化 到 0.1。 把 c 作 为 对 应 于 p 的 累计 概率 函数 ， 定 义 如 下 
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其 中 ，c 是 图 像 的 累计 归 一 化 直方 图 。 


然后 ， 创 建 一 个 形式 为 y=T(x) 的 变化 ， 对 于 原始 图 像 中 的 每 个 值 它 都 产生 一 
样 y 的 累计 概率 函数 就 可 以 在 所 有 值 范 围 内 进行 线性 化 ， 转 换 公 式 定义 如 T; 


y=) 


上 式 中 ，T 将 不 同 的 等 级 映射 到 0..1 域 ， 为 了 将 这 些 值 映 射 回 它 们 最 初 的 域 ， 需 要 在 
结果 上 应 用 下 面 的 简单 变换 : 











i 





Py 





! 


Viz; * (max-min)+min 


Y 





此 外 ， 可 将 上 述 方法 分 别 用 于 图 像 RGB 颜色 值 的 红色 、 绿 色 和 赣 色 分 量 ， 实 现 对 彩 
色 图 像 的 直方 图 均衡 化 。 


Python 可 调用 OpenCV 的 equalizeHist 函 数 实现 直方 图 均衡 化 ， 调 用 格式 如 下 : 














cv2.equalizeHist(src[, dst]) > 


dst 





程序 10-23.py 演 示 了 直方 图 均衡 化 ， 效 果 如 图 10-28 所 示 。 





# -*- coding: utf-8 -*- 
#code:myhaspl@myhaspl.com 
#10-23.py 

import cv2 

fn="test1.jpg" 
myimg=cv2.imread(fn) 
img=cv2.cvtColor(myimg, cv2.COLOR_BGR2GRAY ) 
newimg=cv2.equalizeHist (img) 
cv2.imshow('src', img) 
cv2.imshow( 'dst', newimg) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 


5 
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图 10-28 ”直方 图 均衡 化 
观察 图 10-28， 右 边 是 原 图 ， 左 边 是 经 过 增强 化 的 图 。 
再 看 程序 10-24.py， 该 程序 实现 了 直方 图 均衡 化 的 具体 算法 ， 效 果 如 图 10-29 所 示 。 





# -*- coding: utf-8 -*- 
#code:myhaspl@myhasp1.com 
# 直 方 图 均衡 化 


#10-24.py 

import cv2 

import numpy as np 
fn="test5.jpg" 
myimg=cv2.imread(fn) 
img=cv2.cvtColor (myimg, cv2.COLOR_BGR2GRAY ) 
h=img.shape[0] 

w=img.shape[1] 
newimg=np.zeros((h,w),np.uint8) 
scount=0.0 

# 原 始 图 像 灰 度 级 





scol={} 
# 目 标 图 像 灰 度 级 





dcol={} 
# 原 始 图 像 频 度 





Ps={} 
# 累 计 概 率 
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cs={} 
# 统 计 原始 图 像 灰 度 级 


for m in xrange(h): 
for n in xrange(w): 
scol[img[m,n]]=scol.setdefault(img[m,n],0)+1 
scount+=1 
# 计 算 原 始 图 像 频 度 


for key in scol: 
Ps[key]=scol[key]/scount 
# 计 算 图 像 灰 度 的 离散 随机 变量 累计 概率 


keys=Ps.keys() 
keys.sort() 
for skey in scol: 
Cs.setdefault(skey,0) 
for key in keys 
if key>skey : 
break 
Cs[skey]+=Ps[key] 
# 建 立 输入 与 输出 之 间 的 映射 





d_max=np.max(keys) 
d_min=np.min(keys) 
for skey in keys: 

dcol[skey]=int ((d_max-d_min) *Cs[skey]+d_min) 
for m in xrange(h): 

for n in xrange(w): 

newimg[m,n]=dcol[img[m,n] ] 

cv2.imshow('src', img) 
cv2.imshow( 'dst', newimg) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 


二 一 
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图 10-29 ”直方 图 均衡 化 








观察 图 10-29， 左 图 为 均衡 化 后 的 图 ， 右 边 为 原 图 ， 左 图 的 全 局 对 比 度 增强 了 。 
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10.10 ”图 像 滤 波 与 除 噪 
10.10.1 均一 化 块 滤波 


H(x， 了 根据 作用 域 (3x3、5x5、7x7 等 ) 的 不 同 而 不 同 。 假 设 为 3x3， 则 有 9 个 像素 
参加 运算 。 可 以 有 以 下 几 种 : 





Pl) fla 
I2 If ye 4 2 
| |I] | 2 | 


OpenCV 提 供 的 blur 函 数 可 进行 归 一 化 块 滤波 操作 ，Python 调 用 该 函数 的 格式 如 下 : 





cv2.blur(src, ksize[, dst[, anchor[, borderType]]]) - 


dst 





此 外 ， 该 函数 使 用 了 如 下 脉冲 响应 函数 〈 也 称 为 核 函 数 ) 

上 al 

x | Lime 
ksize.width X ksize height 

ills] 


1. 高 斯 噪声 滤波 
程序 10-25.py 演 示 了 归 一 化 块 滤波 对 高 斯 噪声 的 处 理 ， 效 果 如 图 10-30 所 示 。 





# -*- coding: utf-8 -*- 
#code:myhaspl@myhasp1.com 
# 归 一 化 块 滤波 


#10-25.py 

import cv2 

import numpy as np 

fn="test3.jpg" 

myimg=cv2.imread(fn) 
img=cv2.cvtColor(myimg, cv2.COLOR_BGR2GRAY ) 
# 加 上 高 斯 噪声 


param=20 
# 灰 阶 范围 
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grayscale=256 
w=img.shape[1] 
h=img.shape[0] 
newimg=np.zeros((h,w),np.uint8) 
for x in xrange(0,h): 
for y in xrange(0,w, 2): 
ri=np.random. random_sample( ) 
r2=np. random. random_sample( ) 
z1=param*np.cos(2*np.pi*r2)*np.sqrt((-2)*np.log(r1) ) 
z2=param*np.sin(2*np.pi*r2)*np.sqrt((-2)*np.log(r1) ) 
fxy=int (img[x, y]+z1) 
fxy1=int (img[x, y+1]+z2) 
#f (x,y) 
if fxy<0: 
fxy_val=0 
elif fxy>grayscale-1: 
fxy_val=grayscale-1 


else: 
fxy_val=fxy 

#f(x,y+1) 

if fxy1<0: 
fxy1_val=0 


elif fxy1>grayscale-1: 
fxyi_val=grayscale-1 
else: 
fxyi_val=fxy1 
newimg[x, y]=fxy_val 
newimg[x, y+1]=fxy1i_val 
# 滤 波 去 噪 


lbimg=cv2.blur(newimg, (3,3) ) 
cv2.imshow('src', newimg) 
cv2.imshow('dst', lbimg) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 


ES=== = == = 二 == 
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图 10-30” 归 一 化 块 滤波 
观察 图 10-30， 左 边 为 经 过 归 一 化 块 滤波 后 的 图 ， 右 边 为 原 图 ， 滤 波 效果 较 好 。 
当然 ， 也 可 以 使 用 第 3 个 脉冲 响应 函数 ， 如 下 : 


| 


| 
i 


> S me 


| 
2 
| 





程序 10-26.py 演 示 了 使 用 第 3 个 脉冲 响应 函数 ， 应 用 归 一 化 块 滤波 对 高 斯 噪声 进行 处 
理 ， 效 果 如 图 10-31 所 示 。 
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# -*- coding: utf-8 -*- 
#code:myhaspl@myhaspl.com 
# 归 一 化 块 滤波 


#10-26.py 

import cv2 

import numpy as np 

fn="test3.jpg" 

myimg=cv2.imread(fn) 
img=cv2.cvtColor(myimg, cv2.COLOR_BGR2GRAY ) 
# 加 上 高 斯 噪声 


param=20 
# 灰 阶 范围 


grayscale=256 
w=img.shape[1] 
h=img.shape[0] 
newimg=np.zeros((h,w),np.uint8) 
for x in xrange(0,h): 
for y in xrange(0,w, 2): 
ri=np.random. random_sample( ) 
r2=np. random. random_sample( ) 
z1=param*np.cos(2*np.pi*r2)*np.sqrt((-2)*np.log(r1) ) 
z2=param*np.sin(2*np.pi*r2)*np.sqrt((-2)*np.log(r1) ) 
fxy=int (img[x, y]+z1) 
fxy1=int (img[x, y+1]+z2) 
#f (x,y) 
if fxy<0: 
fxy_val=0 
elif fxy>grayscale-1: 
fxy_val=grayscale-1 
else: 
fxy_val=fxy 
#f(x,y+1) 
if fxy1<0: 
fxy1_val=0 
elif fxy1>grayscale-1: 
fxyi_val=grayscale-1 
else: 
fxyi_val=fxy1 
newimg[x, y]=fxy_val 
newimg[x, y+1]=fxy1_val 
print wou j 
# 滤 波 去 噪 





# 图 像 四 个 边 的 像素 处 理 











lbimg=np.zeros((h+2,w+2),np.float32) 
tmpimg=np.zeros((h+2,w+2) ) 

myh=h+2 

myw=wt+2 

tmpimg[1:myh-1, 1:myw-1]=newimg[0:myh, 0:myw] 
# 用 第 


3 个 脉冲 响应 函数 


a=1/16.0 
kernel=a*np.array([[1,2,1],[2,4,2],[1,2,1]]) 
for y in xrange(1,myh-1): 

for x in xrange(1,myw-1): 

lbimg[y, X]=np.sum(kernel*tmpimg[y-1:y+2,x-1:x+2]) 

print ".", 
resultimg=np.array(lbimg[1:myh-1,1:myw-1],np.uints) 
cv2.imshow('src',newimg) 
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cv2.imshow('dst', resultimg) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 














观察 图 10-31， 左 图 为 归 一 化 块 滤波 后 的 效果 ， 右 图 为 原 图 ， 左 图 去 除 噪声 的 效果 较 
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归 一 化 块 滤波 对 椒盐 噪声 仍 有 一 定 的 滤波 效果 ， 但 需要 将 作用 域 扩 大 《比如 : 设 成 
5x5) ， 图 像 会 更 模糊 ， 效 果 较 好 。 


程序 10-27.py 演 示 了 应 用 归 一 化 块 滤波 对 椒盐 噪声 进行 处 理 ， 效 果 如 图 10-32 所 示 。 


图 10-31 用 第 3 个 脉冲 啊 应 函数 归 一 化 块 滤波 





# -*- coding: utf-8 -*- 
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#code:myhaspl@myhaspl.com 
# 归 一 化 块 滤波 


#10-27.py 
import cv2 

import numpy as np 

fn="test3.jpg" 

myimg=cv2.imread(fn) 
img=cv2.cvtColor(myimg, cv2.COLOR_BGR2GRAY ) 
# 加 上 椒盐 噪声 


# 灰 阶 范围 


w=img.shape[1] 
h=img.shape[0] 
newimg=np.array(img) 
# 噪 声 点 数量 


noisecount=100000 

for k in xrange(0,noisecount ) : 
xi=int(np.random.uniform(0,newimg.shape[1] ) ) 
xj=int(np.random.uniform(0,newimg.shape[0]) ) 
newimg[xj, xi]=255 

# 滤 波 去 噪 


lbimg=cv2.blur(newimg, (5,5) ) 
cv2.imshow('src',newimg) 
cv2.imshow('dst', lbimg) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 





观察 图 10-32， 左 边 为 经 过 滤波 后 的 图 ， 右 边 为 原 图 ， 去 噪 效果 较 好 。 
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图 10-32” 归 一 化 块 滤波 对 椒盐 噪声 进行 处 理 





S 为 邻 域 ， 不 包括 Ox, y) 本 身 的 像素 点 ， 核 h(x，y) 可 为 : 
半径 为 1: 
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半径 为 2: 


程序 10-28.py 演 示 了 邻 域 平 均 法 对 椒盐 噪声 滤波 进行 处 理 的 操作 ， 效 果 如 图 10-33 所 
ZN o 





# -*- coding: utf-8 -*- 
#code:myhaspl@myhasp1.com 
# 领 域 平均 法 滤波 





3*3 

#10-28.py 

import cv2 

import numpy as np 

fn="test3.jpg" 

myimg=cv2.imread(fn) 
img=cv2.cvtColor(myimg, cv2.COLOR_BGR2GRAY ) 
# 加 上 椒盐 噪声 


param=20 
# 灰 阶 范围 


w=img.shape[1] 
h=img.shape[0] 
newimg=np.array(img) 
# 噪 声 点 数量 


noisecount=100000 

for k in xrange(0,noisecount): 
xi=int(np.random.uniform(0,newimg.shape[1] ) ) 
xj=int(np.random.uniform(0,newimg.shape[0]) ) 
newimg[xj, xi]=255 

# 领 域 平均 法 去 噪 





# 脉 冲 响应 函数 ， 核 函数 








# 图 像 四 个 边 的 像素 处 理 








lbimg=np.zeros((h+2,w+2),np.float32) 
tmpimg=np.zeros((h+2,w+2) ) 
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myh=h+2 
myw=w+2 





a=1/8.0 
kernel=a*np.array([[1,1,1], [1,0,1], [1,1,1]]) 
for y in xrange(1,myh-1): 

for x in xrange(1,myw-1): 

lbimg[y, x]=np.sum(kernel*tmpimg[y-1:y+2, x-1:x+2]) 

print ".", 
resultimg=np.array(lbimg[1:myh-1,1:myw-1],np.uints) 
cv2.imshow('src',newimg) 
cv2.imshow('dst', resultimg) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 





图 10-33 ” 邻 域 平 均 法 对 椒盐 噪声 滤波 
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观察 图 10-33， 左 边 为 经 过 滤波 后 的 图 ， 右 边 为 原 图 ， 滤 波 效果 较 好 。 
程序 10-29.py 演 示 了 邻 域 平均 法 对 高 斯 噪声 进行 滤波 的 操作 ， 效 果 如 图 10-34 所 示 。 




















# -*- coding: utf-8 -*- 
#code:myhaspl@myhaspl.com 
# 领 域 平均 法 滤波 





#10-29.py 
import cv2 

import numpy as np 

fn="test3.jpg" 

myimg=cv2.imread(fn) 
img=cv2.cvtColor(myimg, cv2.COLOR_BGR2GRAY ) 
# 加 上 高 斯 噪声 


param=20 
# 灰 阶 范围 


grayscale=256 
w=img.shape[1] 
h=img.shape[0] 
newimg=np.zeros((h,w),np.uints) 
for x in xrange(0,h): 
for y in xrange(0,w, 2): 
r1=np.random.random_sample( ) 
r2=np. random. random_sample( ) 
zi=param*np.cos(2*np.pi*r2)*np.sqrt((-2)*np.log(r1) ) 
z2=param*np.sin(2*np.pi*r2)*np.sqrt((-2)*np.log(r1) ) 
fxy=int (img[x, y]+z1) 
fxyi=int (img[x, y+1]+z2) 
#f (x,y) 
if fxy<0: 
fxy_val=0 
elif fxy>grayscale-1: 
fxy_val=grayscale-1 
else: 
fxy_val=fxy 
#f(x,y+1) 
if fxy1<0: 
fxy1_val=0 
elif fxy1>grayscale-1: 
fxy1_val=grayscale-1 
else: 
fxyi_val=fxy1 
newimg[x, y]=fxy_val 
newimg[x, y+1]=fxy1_val 
print wou i: 
# 领 域 平均 法 去 噪 





# 脉 冲 响应 函数 ， 核 函数 








# 图 像 四 个 边 的 像素 处 理 








lbimg=np.zeros((h+2,w+2),np.float32) 
tmpimg=np.zeros((h+2,w+2) ) 

myh=h+2 

myw=wt+2 

tmpimg[1:myh-1, 1:myw-1]=newimg[0:myh, 0:myw] 
# 用 领域 平均 法 的 〈 设 半径 为 








2) 脉冲 响应 函数 
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a=1/8.0 
kernel=a*np.array([[1,1,1],[1,0,1],[1,1,1]]) 
for y in xrange(1,myh-1): 
for x in xrange(1,myw-1): 
lbimg[y, X]=np.sum(kernel*tmpimg[y-1:y+2,x-1:x+2]) 
print ".", 
resultimg=np. array (1bimg[1: myh-1,1:myw-1],np.uints) 
cv2.imshow('src',newimg) 
cv2.imshow('dst', resultimg) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 





图 10-34 ” 邻 域 平均 法 对 高 斯 噪声 滤波 
观察 图 10-34， 左 边 为 经 过 滤波 后 的 图 ， 右 边 为 原 图 ， 滤 波 效果 较 好 。 
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中 值 滤波 与 邻 域 平均 法 类 似 ， 但 计算 的 是 中 值 ， 而 不 是 平均 值 。 具 体 算法 是 : 将 图 
iE MERITS CARON CRE AERD BR MTDC. 





# -*- coding: utf-8 -*- 
#code:myhaspl@myhasp1.com 
# 中 值 滤波 





#10-30.py 

import cv2 

import numpy as np 

fn="test3.jpg" 

myimg=cv2.imread(fn) 
img=cv2.cvtColor(myimg, cv2.COLOR_BGR2GRAY ) 
# 加 上 椒盐 噪声 


# 灰 阶 范围 


w=img.shape[1] 
h=img.shape[0] 
newimg=np.array(img) 
# 噪 声 点 数量 


noisecount=50000 

for k in xrange(0,noisecount ) : 
xi=int(np.random.uniform(0,newimg.shape[1] ) ) 
xXj=int(np.random.uniform(0,newimg.shape[0] ) ) 
newimg[xj, xi]=255 

# 滤 波 去 噪 


+ 


永 冲 响应 函数 ， 核 函数 











# 图 像 四 个 边 的 像素 处 理 








lbimg=np.zeros((h+2,w+2),np.float32) 
tmpimg=np.zeros((h+2,w+2)) 

myh=h+2 

myw=w+2 

tmpimg[1:myh-1, 1:myw-1]=newimg[0:myh, 0:myw] 
# 用 中 值 法 


for y in xrange(1,myh-1): 
for x in xrange(1,myw-1): 
lbimg[y, X]=np.median(tmpimg[y-1:y+2, x-1:x+2]) 
print ".", 
resultimg= =np. array(1bimg[1: myh-1,1:myw-1],np.uints) 
cv2.imshow('src',newimg) 
cv2.imshow('dst', resultimg) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 














观察 图 10-35 可 发 现 ， 中 值 滤 波 忽 略 了 较 高 阶 灰 度 和 较 低 阶 灰 度 ， 直 接 取 中 值 ， 可 以 
有 效 地 过 滤 椒 盐 噪 声 。 
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图 10-35 ”中 值 滤波 
此 外 ， 也 可 以 在 Python 中 调用 OpenCV 的 medianBlur 函 数 实现 中 值 滤波 ， 调 用 格式 如 





cv2.medianBlur(src, ksize[, dst]) > 


dst 





程序 10-31.py 演 示 了 medianBlur 函 数 实 现 中 值 滤波 的 操作 过 程 ， 效 果 如 图 10-36 所 示 。 





# -*- coding: utf-8 -*- 
#code:myhaspl@myhaspl.com 
# 中 值 滤 波 


#10-31.py 
import cv2 

import numpy as np 

fn="test3.jpg" 

myimg=cv2.imread(fn) 
img=cv2.cvtColor(myimg, cv2.COLOR_BGR2GRAY ) 
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# 加 上 椒盐 噪声 
# 灰 阶 范围 


w=img.shape[1] 
h=img.shape[0] 
newimg=np.array(img) 
# 噪 声 点 数量 


noisecount=50000 

for k in xrange(0,noisecount): 
xi=int(np.random.uniform(0,newimg.shape[1] ) ) 
xj=int(np.random.uniform(0,newimg.shape[0] ) ) 
newimg[xj, xi]=255 

# 滤 波 去 噪 


lbimg=cv2.medianBlur (newimg, 3) 
cv2.imshow('src',newimg) 
cv2.imshow('dst', lbimg) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 








图 10-36 medianBlur 函 数 实现 的 中 值 滤波 
观察 图 10-36， 左 边 为 经 过 中 值 滤 波 后 的 图 ， 右 边 为 原 图 ， 滤 波 效果 很 好 。 
当然 ， 也 可 以 使 用 中 值 滤 波 方法 对 高 斯 噪声 进行 滤波 ， 程 序 10-32.py 演 示 了 该 操作 ， 
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效果 如 图 10-37 所 示 。 





# -*- coding: utf-8 -*- 
#code:myhaspl@myhasp1.com 
# 中 值 滤波 





#10-32.py 

import cv2 

import numpy as np 

fn="test3.jpg" 

myimg=cv2.imread(fn) 
img=cv2.cvtColor(myimg, cv2.COLOR_BGR2GRAY ) 
# 灰 阶 范围 


w=img.shape[1] 
h=img.shape[0] 
newimg=np.array(img) 
# 加 上 高 斯 噪声 


param=20 
# 灰 阶 范围 


grayscale=256 
w=img.shape[1] 
h=img.shape[0] 
newimg=np.zeros((h,w),np.uint8) 
for x in xrange(0,h): 
for y in xrange(0,w, 2): 
ri=np.random. random_sample( ) 
r2=np. random. random_sample( ) 
z1i=param*np.cos(2*np.pi*r2)*np.sqrt((-2)*np.log(r1) ) 
z2=param*np.sin(2*np.pi*r2)*np.sqrt((-2)*np.log(r1) ) 
fxy=int (img[x, y]+z1) 
fxy1=int (img[x, y+1]+z2) 
#f (x,y) 
if fxy<0: 
fxy_val=0 
elif fxy>grayscale-1: 
fxy_val=grayscale-1 


else: 
fxy_val=fxy 

#f(x,y+1) 

if fxy1<0: 
fxy1_val=0 


elif fxy1>grayscale-1: 
fxy1_val=grayscale-1 
else: 
fxy1_val=fxy1 
newimg[x, y]=fxy_val 
newimg[x, y+1]=fxy1i_val 
# 滤 波 去 噪 


lbimg=cv2.medianBlur (newimg, 3) 
cv2.imshow('src',newimg) 
cv2.imshow('dst', 1bimg) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 


= = 
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图 10-37 “对 高 斯 噪声 进行 中 值 滤波 
观察 图 10-37， 左 边 为 经 过 中 值 滤 波 后 的 图 ， 右 边 为 原 图 ， 滤 波 效果 较 好 。 





高 斯 滤波 是 对 整 幅 图 像 进行 加 权 平 均 的 过 程 ， 1 都 由 其 本 身 和 邻 
素 值 经 过 加 权 平 均 后 得 到 的 。 高 1 ens a 用 一 个 模板 〔 或 称 卷 
积 、 苗 图 像 中 的 每 一 个 像素 ， 用 模板 确定 的 邻 域内 像素 的 加 权 平 均 灰 度 值 去 蔡 代 
hate Ge IE 


Python 可 调用 OpenCV 的 GaussianBlur 函 数 进 行 高 斯 滤波 ， 调 用 格式 如 下 : 


iE 





cv2.GaussianBlur(src, ksize, sigmaX[, dst[, sigmaY[, borderType]]]) - 


dst 





程序 10-33.py 演 示 了 高 斯 滤波 ， 效 果 如 图 10-38 所 示 。 





# -*- coding: utf-8 -*- 
#code:myhaspl@myhaspl.com 
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#10-33.py 
import cv2 

import numpy as np 

fn="test3.jpg" 

myimg=cv2.imread(fn) 
img=cv2.cvtColor(myimg, cv2.COLOR_BGR2GRAY ) 
# 灰 阶 范围 


w=img.shape[1] 
h=img.shape[0] 
newimg=np.array(img) 
# 加 上 高 斯 噪声 


param=20 
# 灰 阶 范围 


grayscale=256 
w=img.shape[1] 
h=img.shape[0] 
newimg=np.zeros((h,w),np.uints) 
for x in xrange(0,h): 
for y in xrange(0,w, 2): 
ri=np.random. random_sample( ) 
r2=np.random.random_sample( ) 
zi=param*np.cos(2*np.pi*r2)*np.sqrt((-2)*np.log(r1) ) 
z2=param*np.sin(2*np.pi*r2)*np.sqrt((-2)*np.log(r1) ) 
fxy=int (img[x, y]+z1) 
fxy1=int (img[x, y+1]+z2) 
#f (x,y) 
if fxy<0: 
fxy_val=0 
elif fxy>grayscale-1: 
fxy_val=grayscale-1 


else: 
fxy_val=fxy 

#f(x,y+1) 

if fxy1<0: 
fxy1_val=0 


elif fxy1>grayscale-1: 
fxy1_val=grayscale-1 
else: 
fxy1_val=fxy1 
newimg[x, y]=fxy_val 
newimg[x, y+1]=fxy1_val 
# 滤 波 去 噪 


lbimg=cv2.GaussianBlur (newimg, (3,3),1.8) 
cv2.imshow('src',newimg) 
cv2.imshow('dst',1bimg) 

cv2.waitKey() 

cv2.destroyAllwindows( ) 





观察 图 10-38， 左 边 为 经 过 滤波 后 的 图 ， 右 边 为 原 图 ， 滤 波 效果 较 好 。 
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图 10-38 ”高 斯 滤波 








双边 滤波 (Bilateral Filter) 是 一 种 非 线 性 的 滤波 方法 ， 是 结合 图 像 的 空间 邻近 度 和 
像素 值 相似 度 的 一 种 折 训 处 理 方法 ， miN 考虑 空域 信息 和 灰 度 相似 人 性， 达到 保 边 去 噪 的 
KH. RAWA, JEER JAIRA 


Python 可 调用 OpenCV 的 bilateralFilter 函 数 来 实现 ， 调 用 格式 如 下 : 





cv2.bilateralFilter(src, d, sigmaColor, sigmaSpace[, dst[, borderType]]) - 


dst 


该 函数 的 核心 参数 如 下 : 
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d: 滤波 时 像素 邻 域 的 直径 ，d 为 负 时 由 sigaColor 计 算得 到 ; d>5 时 不 能 实时 处 理 。 


'SigmaColor、sigmaSpace 表 示 颜 色 空 间 和 坐标 空间 的 滤波 系数 sigma， 可 简单 的 赋值 
为 相同 的 值 ， 其 值 小 于 10 时 几乎 没有 效果 ; 其 值 大 于 150 时 为 油画 效果 。 


程序 10-34.py 演 示 了 双边 滤波 对 椒盐 噪声 的 滤波 ， 效 果 如 图 10-39 所 示 。 








# -*- coding: utf-8 -*- 
#code:myhaspl@myhaspl.com 
# 双 边 滤波 


#10-34.py 
import cv2 

import numpy as np 

fn="test3.jpg" 

myimg=cv2.imread(fn) 
img=cv2.cvtColor(myimg, cv2.COLOR_BGR2GRAY ) 
# 加 上 椒盐 噪声 


# 灰 阶 范围 


w=img.shape[1] 
h=img.shape[0] 
newimg=np.array(img) 
# 噪 声 点 数量 


noisecount=50000 

for k in xrange(0,noisecount ) : 
xi=int(np.random.uniform(0,newimg.shape[1] ) ) 
xj=int(np.random.uniform(0,newimg.shape[0] ) ) 
newimg[xj, xi]=255 

# 滤 波 去 噪 


lbimg=cv2.bilateralFilter (newimg, 5,140,140) 
cv2.imshow('src',newimg) 
cv2.imshow('dst', 1bimg) 

cv2.waitKey() 

cv2.destroyAllwindows( ) 


| 
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图 10-39 ”双边 滤波 对 椒盐 噪声 的 滤波 
观察 图 10-39， 左 边 为 经 过 滤波 后 的 图 ， 右 边 为 原 图 ， 滤 波 效果 较 好 。 
程序 10-35.py 演 示 了 双边 滤波 对 高 斯 噪声 的 滤波 ， 效 果 如 图 10-40 所 示 。 





# -*- coding: utf-8 -*- 
#code:myhaspl@myhaspl.com 
# 双 边 滤 波 


#11-35.py 

import cv2 

import numpy as np 

fn="test3.jpg" 

myimg=cv2.imread(fn) 
img=cv2.cvtColor(myimg, cv2.COLOR_BGR2GRAY ) 
# 灰 阶 范围 
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w=img.shape[1] 
h=img.shape[0] 
newimg=np.array(img) 
# 加 上 高 斯 噪声 


param=20 
# 灰 阶 范围 


grayscale=256 
w=img.shape[1] 
h=img.shape[0] 
newimg=np.zeros((h,w),np.uint8) 
for x in xrange(0,h): 
for y in xrange(0,w, 2): 
ri=np.random. random_sample( ) 
r2=np. random. random_sample( ) 
z1i=param*np.cos(2*np.pi*r2)*np.sqrt((-2)*np.log(r1) ) 
z2=param*np.sin(2*np.pi*r2)*np.sqrt((-2)*np.log(r1) ) 
fxy=int (img[x, y]+z1) 
fxy1=int (img[x, y+1]+z2) 
#f (x,y) 
if fxy<0: 
fxy_val=0 
elif fxy>grayscale-1: 
fxy_val=grayscale-1 
else: 
fxy_val=fxy 
#f(x,y+1) 
if fxy1<0: 
fxy1_val=0 
elif fxy1>grayscale-1: 
fxyl_ val=grayscale-1 
else 
fxy1 val=fxy1 
newimg[x, y]=fxy_val 
newimg[x, y+1]=fxy1i_val 
# 滤 波 去 噪 


lbimg=cv2.bilateralFilter(newimg, 3,140,140) 
cv2.imshow('src',newimg) 
cv2.imshow('dst', 1bimg) 

cv2.waitKey() 

cv2.destroyAllwindows( ) 





观察 图 10-40， 左 边 为 经 过 滤波 后 的 图 ， 右 边 为 原 图 ， 滤 波 效果 较 好 。 
10.10.6“ 卷 积 滤波 





卷 积 滤波 的 基本 思想 是 : 将 卷 积 核 矩 阵 的 中 心 依 次 ee 每 一 个 像素 的 位 
置 上 ， 将 卷 积 核 的 每 一 个 元 素 分 别 和 图 像 矩阵 对 应 位 置 的 元 素 相 乘 ， bes 乘积 累加 起 
来 ， 作 为 卷 积 结果 。 如 图 10-41 所 示 。 
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图 10-40 ”双边 滤波 对 高 斯 噪声 的 滤波 
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图 10-41 ” 卷 积 滤波 
可 在 Python 中 使 用 OpenCV 的 flter2D 函 数 进行 卷 积 滤波 ， 调 用 格式 如 下 : 








cv2.filter2D(src, ddepth, kernel[, dst[, anchor[, delta[, borderType]]]]) - 


dst 





程序 10-36.py 演 示 了 卷 积 滤波 对 图 像 的 锐 化 处 理 ， 效 果 如 图 10-42 所 示 。 








# -*- coding: utf-8 -*- 
# 卷 积 滤波 


#code:myhaspl@myhaspl.com 

#10-36.py 

import cv2 

import numpy as np 

fn="test112.jpg" 

myimg=cv2.imread(fn) 
img=cv2.cvtColor(myimg, cv2.COLOR_BGR2GRAY ) 
myh=np.array([[0,1,0],[1,-4,1],[9,1,0]]) 
jgimg=cv2.filter2D(img, -1,myh) 
cv2.imshow('src', img) 
cv2.imshow('dst', jgimg) 

cv2.waitKey() 

cv2.destroyAllwindows( ) 





观察 图 10-42， 左 边 是 经 过 滤波 处 理 的 图 ， 右 边 是 原 图 ， 锐 化 效果 不 错 。 
程序 10-37.py 演 示 了 拉 普 拉 斯 算 子 进行 二 维 卷 积 计算 ， 对 图 像 进行 锐 化 处 至 
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效果 如 








10-43 所 示 。 





# -*- coding: utf-8 -*- 
#10-37.py 

import cv2 

import numpy as np 

from scipy import signal 
fn="test6.jpg" 
myimg=cv2.imread(fn) 
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img=cv2.cvtColor(myimg, cv2.COLOR_BGR2GRAY ) 
srcimg=np.array(img,np.double) 
myh=np.array([[0,1,0],[1,-4,1],[0,1,0]]) 
myj=signal.convolve2d(srcimg,myh,mode="same" 
jgimg=.img-my]j : 

cv2.imshow('src', img) 
cv2.imshow('dst', jgimg) 

cv2.waitKey() 

cv2.destroyAllwindows( ) 





can 


图 10-42 ” 卷 积 滤波 对 图 像 的 锐 化 处 理 
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图 10-43” 拉 普 拉 斯 算 子 进行 二 维 卷 积 





观察 图 10-43， 左 边 是 原 图 ， 右 边 是 经 过 锐 化 后 的 图 像 ， 锐 化 效果 较 好 。 
10.10.7 边缘 检测 


1.Laplacian 


可 在 Python 中 调用 OpenCV 的 Laplacian 函 数 进行 边缘 检测 ， 调 用 格式 如 下 : 





cv2.Laplacian(src, ddepth[, dst[, ksize[, scale[, delta[, borderType]]]]]) - 


dst 





当 该 函数 的 ksize 参 数 大 于 1 时 ，Sobel 算 子 计 算 公 式 如 下 : 


此 外 ， 当 ksize=1 时 ， 对 图 像 采 用 如 下 内 核 做 卷 积 : 
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程序 10-38.py 演 示 了 拉 普 拉 斯 边缘 检测 ， 效 果 如 图 10-44 所 示 。 





# -*- coding: utf-8 -*- 
# 线 性 锐 化 滤波 ， 拉 普 拉 斯 图 像 变 换 


#code:myhaspl@myhaspl.com 
#10-38.py 

import cv2 

fn="test6.jpg" 
myimg=cv2.imread(fn) 

img= =cv2. ee ce hae COLOR_BGR2GRAY ) 
jgimg=cv2. Laplacian(img, -1 
cv2.imshow('src', img) 
cv2.imshow('dst', jgimg) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 














图 10-44” 拉 普 拉 斯 边缘 检测 


B Bes 10. 44， 左 边 是 原 图 ， 右 边 是 经 过 滤波 后 的 图 像 ， 边 缘 被 成 功 提取 ， 将 右 图 进 
行 反 转 黑 色 变 白 色 ， 和 白色 变 黑 色 ， 用 255 减 去 图 像 甜 阵 ) 后 ， 可 得 到 更 好 的 效果 。 
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2.sobel 非 线性 滤波 
sobel 非 线性 滤波 采用 梯度 模 的 近似 方式 提取 边缘 ， 锐 化 图 像 。 
程序 10-39.py 演 示 了 sobel 非 线性 滤波 ， 效 果 如 图 10-45 所 示 。 





# -*- coding: utf-8 -*- 
# 非 线性 锐 化 滤波 ， 


Sobel 算 子 变 换 


#code:myhaspl@myhaspl.com 
#10-39.py 

import cv2 

fn="test6.jpg" 
myimg=cv2.imread(fn) 
img=cv2.cvtColor(myimg, cv2.COLOR_BGR2GRAY ) 
jgimg=cv2.Sobel(img,0,1,1) 
cv2.imshow('src', img) 
cv2.imshow('dst', jgimg) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 





图 10-45 ”sobel 非 线性 滤波 


观察 图 10-45， 左 边 是 原 图 ， 右 边 是 经 过 滤波 后 的 图 像 ， 边 乡 被 成 功 提 取 ， 将 右 图 进 
转 〈 黑 色 变 白色 ， 和 白色 变 黑色 ， 用 255 减 去 图 像 矩 阵 ) 后 ， 可 得 到 更 好 的 效果 。 
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Dh ge E AnA A r ERAITTE, DA 
数字 图 像 用 
然后 以 实例 说 明了 图 像 边 


图 像 值 化 、 
强 、 图 像 滤波 与 除 噪 


介绍 了 数字 图 像 的 基 





例 均 用 Python 进 行 实现 ， 


AS 础 ZH TAs 


oats 





a -5 M 
等 算法 。 此 外 ， 





以 Or il WE 


仿 射 、 
在 讲解 这 些 


算法 的 有 效 性 。 
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(1) 首先 应 用 欧 氏 e ZR, FEMS LARLY RET SCO, MEN 
后 六 差分 算法 〈 计 算 像素 数值 的 差分 绝对 值 ) 进行 实验 ， 观 





人 对 其 进行 加 噪声 点 、 变 形 、 放 大 、 缩 小 等 操作 ， 应 用 
saat ed 
) 首先 任意 选取 一 个 彩色 图 像 ， 分 别 加 上 高 斯 噪声 和 椒盐 噪声 ， 然 后 应 用 本 章 介 
AN SAORI A PIR 
(4) 首先 任意 选取 一 个 彩色 图 像 ， 将 其 灰 度 化 ， 然 后 应 用 本 章 介绍 的 图 像 增强 方法 
A 站 绍 的 三 值 化 、 仿 射 、 透 视 化 变换 等 方法 对 彩色 图 人 
行 处 已 5 
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第 11 章 ”机 器 视觉 案例 


计算 机 视觉 是 一 门 研 究 如 何 使 机 器 “看 懂 ” 图 像 的 科学 ， 即 a BA 
Ht Fl bah er A., 跟踪 和 测量 等 。 首 先 ， 使 用 摄像 机 等 wee oO 
Ba! 用 计算 机 对 图 像 进行 分 析 ， 祖 当 于 人 的 大 脑 对 眼睛 采集 的 信息 和 天 时 
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”计算 机 视觉 、 图 像 处 理 、 图 像 分 析 、 机 器 人 视觉 、 机 器 视觉 等 都 是 彼此 紧密 关联 的 
学 科 ， 这 些 学 科 都 属于 人 工 智 能 的 范畴 ， 它 科 的 研究 让 的 者 是 使 机 器 入 〈 计 算 机 ) 和 人 一 
样 ， 能 看 到 图 像 ， 理 解 图 像 ， 学 习 图 像 中 包含 的 知识 。 机 器 学 习 是 人 工 智能 的 核心 技术 ， 
eeu ca cs a 其 作用 相当 平 人 类 大 脑 加 工 和 处 理 
ANF aa 馈 S 
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11.1 人 脸 辩 识 


生物 特征 识别 技术 ， 是 指 通过 生物 体 〈 一 般 特 指 人 ) 本 身 的 生物 特征 来 区 分 生物 体 
个 体 。 生 物 特征 识别 技术 所 研究 的 相关 特征 包括 脸 、 指 纹 、 手 掌 纹 、 虹 膜 、 视 网 膜 、 声 
音 、 体 形 、 个 人 习惯 等 。 相 应 的 识别 技术 有 人 脸 识别 、 指 纹 识 别 、 擎 纹 识别 、 虹 膜 识 别 、 
视网膜 识别 、 语 音 识 别 、 体 形 识别 、 键 盘 敲 击 识别 、 签 字 识 别 等 。 


人 脸 识 别 属于 生物 特征 识别 技术 中 的 一 种 ， 指 利用 分 析 比 较 人 脸 视觉 特征 信息 进行 
身份 鉴别 的 计算 机 技术 。 








11.1.1 AEM 





在 一 张 图 像 或 一 段 视频 中 定位 人 脸 的 技术 目前 已 比较 成 熟 ， 可 调用 OpenCV 提 供 的 接 
口 来 完成 。 相 应 的 Python 代码 如 下 : 





def findface(image): 
# 人 脸 识别 ， 获 取 脸 在 图 像 中 的 坐标 





grayscale = cv.CreateImage((image.width, image.height), 8, 1) 
cv.CvtColor(image, grayscale, cv.CV_BGR2GRAY) 
cascade = 
cv.Load(OPCV_PATH+"/data/haarcascades/haarcascade_frontalface_alt_tree. xml") 
rect = cv.HaarDetectObjects(grayscale, cascade, cv.CreateMemStorage(), 1.015, 2,cv.CV_HAAR_D 
result = [] 
for r in rect: 
result.append([(r[0][@], r[O][1]), (rr0][0]+r[0][2], r[0][1]+r[0][3])]) 
return result 


上 面 算法 的 原理 是 : 首先 将 图 像 转换 为 灰 度 图 ， 然 后 加 载 ODpenCV 提 供 的 面部 特征 
人 

















下 面 以 如 图 11-1 所 示 的 《机 械 公 敌 》 的 电影 海报 为 例 来 应 用 算法 。 
实现 该 算法 的 完整 Python 代码 如 下 : 





#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
#11-1.py 

# 人 脸 定位 


import cv2 

import cv2.cv as cv 
print ‘loading ...' 
# 请 在 本 程序 运行 前 检查 


opencv 的 目录 是 否 为 下 面 的 


OPCV_PATH 值 


OPCV_PATH=r'"F:/soft/c++/opencv" 
def findface(image): 
HAMA, EURE BHR P HAER 

















wawai bbt. can DEE ATCHHE 























grayscale = cv.CreateImage((image.width, image.height), 8, 1) 
cv.CvtColor(image, grayscale, cv.CV_BGR2GRAY) 
cascade = cv.Load(OPCV_PATH+"/data/haarcascades/haarcascade_frontalface_alt_tree. xml") 
rect = cv.HaarDetectObjects(grayscale, cascade, cv.CreateMemStorage(), 1.015, 2,cv.CV_HAAR_D 
result = [] 
for r in rect: 
result.append([(r[0][@], r[O][1]), (r[0][0]+r[0][2], r[0][1]+r[0][3])]) 
return result 
fn='facesb.png' 
my_img=cv.LoadImage(fn) 
# 获 取 脸 在 图 像 中 的 坐标 





faceresult=findface(my_img) 
myimg=cv2.imread(fn) 
for ii in xrange(0,len(faceresult)): 
cv2.rectangle(myimg, faceresult [ii][0], faceresult[ii][1], (0,0,250)) 
cv2.namedwWindow('img' ) 
cv2.imshow('img', myimg) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 





程序 运行 效果 如 图 11-2 所 示 。 不 但 所 有 人 类 的 脸 被 定位 ， 而 且 机 器 人 的 脸 也 被 成 功 
人 。 程 序 的 OPCV_PATH 为 OpenCV 源 码 包 中 data 所 在 的 目录 ， 运 行 10-10.py 前 请 自行 更 
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图 11-1 《机 械 公 政 》 的 电影 海报 
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图 11-2 ”人 脸 定 位 


在 讲述 本 玉 内 容 之 前 ， 允 明确 一 下 本 节 讲 述 的 算法 需要 完成 的 任务 : 通过 茶 人 的 一 
张 照片 ， 在 他 与 别人 rs 影 中 找到 他 。 


1. 算 法 描述 

完成 该 任务 的 人 脸 辨识 算法 主要 过 程 是 

D 读 取 两 张 图 像 ， 生 成 图 像 矩 阵 。 

2) 以 两 个 图 像 矩 阵 为 基础 ， 调 用 OpenCV 的 相关 函数 完成 人 脸 定 位 。 

3) 读 取 两 张 图 像 的 人 脸 区 域 ， 生 成 人 脸 图 像 窍 阵 ， 并 将 人 脸 矩 阵 转换 为 灰 度 图 。 
4) 比较 分 析 人 脸 图 像 矩 阵 ， 找 到 最 相近 的 人 脸 。 
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欧 氏 距离 算法 








在 进行 人 脸 识 别 时 ， 可 使 用 标准 欧 氏 距离 算法 ， 该 算法 不 仅 简 单 ， 而 且 实用 。 下 面 
以 一 张 Microsoft2 KG BES HE DR REI eA ZE LOR BRI A BPH EAN AHAB 


讲解 该 算法 。 


算法 基本 原理 是 : 将 标准 欧 氏 距离 算法 作为 比较 分 机 人 脸 图 像 矩 阵 方法 。 首 先 ， 将 
两 个 人 脸 图 像 调整 为 指定 大 小 ; Er, 用 所 包 全 像素 的 下 组 成 特征 组 ， 然 后 将 特 
征 组 映 则 为 融 维 空间 的 茶 个 点 〔 在 此 称 之 为 特征 点 》:; 两 个 人 脸 图 像 的 特征 点 
映射 到 高 维 空间 后 的 距离 ， 以 欧 a eee et ae ee ae 


1) 调用 OpenCV 相 关 函 数 定位 人 脸 。 代 码 如 下 : 





sini 
mal 
y% 





cv2.imshow('img', myimg) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 





2) 计算 欧 氏 距离 。 代 码 如 下 : 





def get_distance(img, findimg) 
newsize=(img.shape[1], img.shape[0] ) 
fimg=cv2.resize(findimg, newsize) 
my_img=cv2.cvtColor(img, cv2.COLOR_BGR2GRAY ) 
my_fimg=cv2.cvtColor(fimg, cv2.COLOR_BGR2GRAY ) 
return get_EuclideanDistance(my_img, my_fimg) 





3) 找到 最 匹配 的 人 脸 。 代 码 如 下 : 





myimg=cv2.imread(fn) 
myimgt=cv2.imread(fnt) 
#IT 精 英 比 尔 


"HX 


isfacel=get_distance(myimg[faceresult[0][0][0]:faceresult[0][1][0], faceresult[0][0 
[1]: faceresult[0][1][1],:],myimgt[facet_result[0][0][0]:facet_result[0][1][0], facet_result[0][0] 
[1]: facet_result[0][1][1],:]) 
isface2=get_distance(myimg[faceresult[1][0][0]:faceresult[1][1][0], faceresult[1][0] 
[1]: faceresult[1][1][1],:],myimgt[facet_result[0][0][0]:facet_result[0][1][0], facet_result[0][0] 
[1]: facet_result[0][1][1],:]) 
if isfacel<isface2: 

cv2.rectangle(myimg, faceresult[0][0], faceresult[0][1], (255,0,255)) 

cv2.rectangle(myimgt, facet_result[0][0], facet_result[0][1], (255,0,255)) 
else: 

cv2.rectangle(myimg, faceresult[1][0], faceresult[1][1], (255,0,255)) 

cv2.rectangle(myimgt, facet_result[0][0], facet_result[0][1], (255,0,255)) 


完整 的 代码 如 下 : 








#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
#11-2.py 

# 标 准 欧 氏 距离 实现 的 人 脸 识 别 


import cv2 

import numpy as np 
import cv2.cv as cv 
print 'loading ...' 
# 请 在 本 程序 运行 前 检查 
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opencv 的 目录 是 否 为 下 面 的 


OPCV_PATH 值 


OPCV_PATH=r"F:/soft/c++/opencv" 
def get_EuclideanDistance(x,y): 
myx=np.array(x) 
myy=np.array(y) 
return np.sqrt(np.sum((myx-myy)*(myx-myy) ))*np.var(myx-myy ) 
def get_distance(img, findimg): 
newsize=(img.shape[1], img.shape[0] ) 
fimg=cv2.resize(findimg, newsize) 
my_img=cv2.cvtColor(img, cv2.COLOR_BGR2GRAY ) 
my_fimg=cv2.cvtColor(fimg, cv2.COLOR_BGR2GRAY ) 
return get_EuclideanDistance(my_img,my_fimg) 
def findface(image): 
# 人 脸 识别 ， 获 取 脸 在 图 像 中 的 坐标 





grayscale = cv.CreateImage((image.width, image.height), 8, 1) 
cv.CvtColor(image, grayscale, cv.CV_BGR2GRAY) 
cascade = cv.Load(OPCV_PATH+"/data/haarcascades/haarcascade_frontalface_alt_tree. xml") 
rect = cv.HaarDetectObjects(grayscale, cascade, cv.CreateMemStorage(), 1.1, 2,cv.CV_HAAR_DO_ 
result = [] 
for r in rect: 
result .append([(r[0][0], r[0][1]), (r[0][0]+r[0][2], r[0][1]+r[0][3])]) 
return result 
fn='billalli1.png' 
fnt= 'billtest.png' 
my_img=cv.LoadImage(fn) 
face_test=cv.LoadImage(fnt) 
# 获 取 人 脸 在 图 像 中 的 坐标 


faceresult=findface(my_img) 
facet_result=findface(face_test) 
myimg=cv2.imread(fn) 
myimgt=cv2.imread(fnt) 

#IT 精 英 比 尔 


isface1l=get_distance(myimg[faceresult[0][0][0]:faceresult[0][1][0], faceresult[0][0] 
[1]: faceresult[0][1][1],:],myimgt[facet_result[0][0][0]:facet_result[0][1][0], facet_result[0] [0] 
[1]: facet_result[0][1][1],:]) 
isface2=get_distance(myimg[faceresult[1][0][0]:faceresult[1][1][0], faceresult[1] [0] 
[1]: faceresult[1][1][1],:],myimgt[facet_result[0][0][0]:facet_result[0][1][0], facet_result[0] [0] 
[1]: facet_result[0][1][1],:]) 
if isfacel<isface2: 
cv2.rectangle(myimg, faceresult[0][0], faceresult[0][1], (255,0,255)) 
cv2.rectangle(myimgt, facet_result[0][0], facet_result[0][1], (255,0,255)) 
else: 
cv2.rectangle(myimg, faceresult[1][0], faceresult[1][1], (255,0,255)) 
cv2.rectangle(myimgt, facet_result[0][0], facet_result[0][1], (255,0,255)) 
cv2.namedwindow( 'img' ) 
cv2.imshow('img', myimg) 
cv2.namedwindow( 'imgt' ) 
cv2.imshow('imgt', myimgt) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 








运行 算法 程序 后 ， 成 功 地 在 员工 合影 中 找到 比尔 : 盖 次 。 运 行 本 书 资源 包 中 的 上 述 代 
码 ， 可 验证 人 脸 识别 效果 。 


3. 改 进 的 欧 氏 距离 算 沪 








DH 
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前 面 描述 的 图 像 特征 码 提取 算法 仅仅 是 基于 像素 点 的 三 元 色 数 值 的 ， 有 时 候 ， 图 像 
少量 的 像素 点 差异 可 能 干扰 识别 结果 。 人 脸 是 一 个 整体 ， 可 能 因为 人 脸 的 某 个 部 位 〈 如 文 

Hn ANGI SP EAE Gm AM 和 斜 侧面 人 脸 以 及 抬头 或 低头 
等 ) 造成 少数 像素 点 之 间 的 差异 过 大 ， 使 欧 ees (被 放大 或 缩小 ) 。 如 果 从 以 下 两 
个 方 A LCR A IU, 可 以 使 其 识别 效果 更 好 


:将 人 脸 图 像 大 小 设置 为 适当 的 数值 (通常 来 说 比较 小 )， 这样 更 能 突出 人 脸 的 特 
征 ， 而 略 去 很 多 了 千 扩 项。 此外， 提取 原始 特征 组 后 ， 使 用 PCA 降 维 技术 对 原始 特征 组 进行 
进一步 加 工 ， 生 成 最 终 的 特征 组 ， eigenen 


-在 标准 欧 氏 距离 的 基础 上 乘 以 权重 。 有 两 种 计算 方式 : 第 一 ， 每 区 域 像素 设置 不 同 
的 权重 ， 因 为 人 脸 的 不 同 区 域 表征 人 脸 的 外 ee 第 二 ， 设 置 整 体 权 重 ， 使 人 脸 图 像 矩 
阵 的 差分 值 均匀 化 。 

本 节 使 用 第 二 种 方式 ， 加 工 后 的 欧 氏 距离 不 但 能 更 好 地 表征 人 脸 整 体 差 异 ， 而 且 不 
会 因为 人 脸 中 茶 些 部 分 过头 或 过 小 的 差异 影响 鉴 体 识别 效果 


在 讲解 上 述 算法 之 前 ， 先 讲解 一 下 统计 学 的 变异 系数 。 i 
BOE, FRAIER. 在 衡量 数据 分 布 离散 程度 时 ， 不 仅 要 考虑 变量 值 离散 
程度 ， 还 要 考虑 变量 值 平 均 水 平 。 Lee 


变异 系数 ， 称 离 散 系数 ， 是 概率 分 布 离散 程度 的 一 个 归 一 化 量度 。 它 定义 为 标准 
差 a 与 平均 值 h 之 比 
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注意 ， 变 异 系数 只 在 平均 值 不 为 零 时 有 定义 ， 人 脸 差分 矩阵 正好 满足 这 个 条 件 。 


变异 系数 可 以 消除 因为 平均 数 不 同 在 变异 程度 比较 中 产生 的 干扰 。 变 异 系数 越 小 ， 
数据 离 平 均值 的 偏离 程度 越 小 ， 反 之 ， 变 异 系数 越 大 ， 数 据 离 平均 值 的 偏离 程度 越 大 。 


ee 然后 将 改进 的 变异 系数 的 倒数 作 
为 计算 欧 氏 距离 的 调节 系数 (这 样 做 的 效果 是 将 偏离 程度 较 大 的 数据 赋予 较 小 的 权重 ， 
将 偏离 程度 较 小 的 数据 赋予 较 大 的 权重 中 ) ; 最 后 将 标准 欧 氏 距离 乘 以 调节 权重 ， 从 而 实 
现 差异 a eee eee 通过 对 多 个 样本 的 实验 来 
看 ， 这 种 方式 的 效果 比较 理想 


下 面 以 找到 威 尔 ， 本 斯 为 例 来 讲解 改进 的 欧 氏 距离 算法 。 ff RA BD ee a 
史密斯 饰演 警 探 戴尔 史 普 纳 ， 布 丽 姬 称 娜 饰演 苏 MERRE, 以 威 尔 :史密斯 出 演 
《我 是 传奇 》 的 电 景 海报 (如 图 11-3 所 示 ) 中 的 图 像 为 蓝本 ， chit NRE IR A ER 
《机 械 公 敌 》 海 报 〈 如 图 11-4 和 图 11-2 所 示 ) 中 找到 他 。 
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图 11-3 《我 是 传奇 》 海 报 
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图 11-4 (BLK ASO) ER 


经 过 实验 ， 发 现 标准 的 欧 氏 距 算法 无 法 完成 这 个 任务 ， 需 要 使 用 刚刚 描述 的 改进 后 
的 欧 氏 距离 算法 。 


1) 在 PCA 降 维 后 ， 计 算 基 于 整体 权重 的 欧 氏 距离 。 代 码 如 下 : 











def get_distance(img, findimg): 
newsize=(21, 21) 
fimg=cv2.resize(findimg, newsize) 
img=cv2.resize(img, newsize) 
my_img=cv2.cvtColor(img, cv2.COLOR_BGR2GRAY ) 
my_fimg=cv2.cvtColor(fimg, cv2.COLOR_BGR2GRAY ) 
pcaimg = mlpy.PCA() 
pcaimg.learn(my_img) 
pca_img = pcaimg.transform(my_img, k=1) 
pca_img=pcaimg.transform_inv(pca_img) 
pcafimg = mlpy.PCA() 
pcafimg.learn(my_fimg) 
pca_fimg = pcaimg.transform(my_fimg, k=1) 
pca_fimg= pcafimg.transform_inv(pca_fimg) 
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return get_EuclideanDistance(pca_img, pca_fimg) 





2) 根据 欧 氏 距离 决定 哪个 人 脸 更 匹配 。 代 码 如 下 : 





my_img=cv.LoadImage(fn2) 
myimg=cv2.imread(fn2) 
# 获 取 脸 在 图 像 中 的 坐标 








faceresult=findface(my_img) 
# 找 到 威 尔 


.史密斯 


isface1l=get_distance(myimg[faceresult[0][0][0]:faceresult[0][1][0], faceresult[0][0] 
[1]: faceresult[0][1][1],:],myimgt[facet_result[0][0][0]:facet_result[0][1][0], facet_result[0][0] 
[1]: facet_result[0][1][1],:]) 
isface2=get_distance(myimg[faceresult[1][0][0]:faceresult[1][1][0], faceresult[1] [0] 
[1]: faceresult[1][1][1], :],myimgt[facet_result[0][0][0]:facet_result[0][1][0], facet_result[0] [0] 
[1]: facet_result[0][1][1],:]) 
if isfacel<isface2: 

cv2.rectangle(myimg, faceresult[0][0], faceresult[0][1], (255,0,255)) 

cv2.rectangle(myimgt, facet_result[0][0], facet_result[0][1], (255,0,255)) 
else: 

cv2.rectangle(myimg, faceresult[1][0], faceresult[1][1], (255,0,255)) 

cv2.rectangle(myimgt, facet_result[0][0], facet_result[0][1], (255,0,255)) 





完整 的 代码 如 下 : 





#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
#11-3.py 
#pCb+ 改 进 变异 系数 人 脸 识 别 


import cv2 

import numpy as np 
import cv2.cv as cv 
import mlpy 

print ‘loading ...' 
# 请 在 本 程序 运行 前 检查 


opencv 的 目录 是 否 为 下 面 的 


OPCV_PATH 值 


OPCV_PATH=r"F:/soft/c++/opencv" 
def get_EuclideanDistance(x,y): 
myx=np.array(x) 
myy=np.array(y) 
return np.sqrt(np.sum((myx-myy)*(myx-myy) ))/(np.var (myx-myy)/abs(np.mean(myx-myy) ) ) 
def get_distance(img, findimg): 
newsize=(21, 21) 
fimg=cv2.resize(findimg, newsize) 
img=cv2.resize(img, newsize) 
my_img=cv2.cvtColor(img, cv2.COLOR_BGR2GRAY ) 
my_fimg=cv2.cvtColor(fimg, cv2.COLOR_BGR2GRAY ) 
pcaimg = mlpy.PCA() 
pcaimg.learn(my_img) 
pca_img = pcaimg.transform(my_img, k=1) 
pca_img=pcaimg.transform_inv(pca_img) 
pcafimg = mlpy.PCA() 
pcafimg.learn(my_fimg) 
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pca_fimg = pcaimg.transform(my_fimg, k=1) 

pca_fimg= pcafimg.transform_inv(pca_fimg) 

return get_EuclideanDistance(pca_img, pca_fimg) 
def findface(image): 

# 人 脸 识别 ， 获 取 脸 在 图 像 中 的 坐标 





grayscale = cv.CreateImage((image.width, image.height), 8, 1) 
cv.CvtColor(image, grayscale, cv.CV_BGR2GRAY) 
cascade = cv.Load(OPCV_PATH+"/data/haarcascades/haarcascade_frontalface_alt_tree.xml") 
rect = cv.HaarDetectObjects(grayscale, cascade, cv.CreateMemStorage(), 1.1, 2,cv.CV_HAAR_DO_ 
result = [] 
for r in rect: 
result .append([(r[0][0], r[0][1]), (r[0][0]+r[0][2], r[0][1]+r[0][3])]) 
return result 
fni='jjgdall.png' 
fn2='facesb.png' 
fnt='jjgdtest.png' 
face_test=cv.LoadImage(fnt) 
# 获 取 人 脸 在 图 像 中 的 坐标 


facet_result=findface(face_test) 
myimgt=cv2.imread(fnt) 
my_img=cv.LoadImage(fn1) 
myimg=cv2.imread(fn1) 

# 获 取 人 脸 在 图 像 中 的 坐标 





faceresult=findface(my_img) 
# 找 到 威 尔 


.史密斯 


isface1l=get_distance(myimg[faceresult[0][0][0]:faceresult[0][1][0], faceresult[0][0] 
[1]: faceresult[0][1][1],:],myimgt[facet_result[0][0][0]:facet_result[0][1][0], facet_result[0] [0] 
[1]: facet_result[0][1][1],:]) 
isface2=get_distance(myimg[faceresult[1][0][0]:faceresult[1][1][0], faceresult[1][0] 
[1]: faceresult[1][1][1], :],myimgt[facet_result[0][0][0]:facet_result[0][1][0], facet_result[0] [0] 
[1]: facet_result[0][1][1],:]) 
if isfacel<isface2: 

cv2.rectangle(myimg, faceresult[0][0], faceresult[0][1], (255,0,255)) 

cv2.rectangle(myimgt, facet_result[0][0], facet_result[0][1], (255,0,255)) 
else: 

cv2.rectangle(myimg, faceresult[1][0], faceresult[1][1], (255,0,255)) 

cv2.rectangle(myimgt, facet_result[0][0], facet_result[0][1], (255,0,255)) 
cv2.namedWindow('img1' ) 
cv2.imshow('imgi', myimg) 
my_img=cv.LoadImage(fn2) 
myimg=cv2.imread(fn2) 
# 获 取 人 脸 在 图 像 中 的 坐标 


faceresult=findface(my_img) 
# 找 到 威 尔 


,史密斯 


isface1=get_distance(myimg[faceresult[0][0][0]:faceresult[0][1] [0], faceresult[0][0] 
[1]: faceresult[0][1][1],:],myimgt[facet_result[0][0][0]:facet_result[0][1][0], facet_result[0] [0] 
[1]: facet_result[0][1][1],:]) 
isface2=get_distance(myimg[faceresult[1][0][0]:faceresult[1][1][0], faceresult[1][0] 
[1]: faceresult[1][1][1],:],myimgt[facet_result[0][0][0]:facet_result[0][1][0], facet_result[0][0] 
[1]: facet_result[0][1][1],:]) 
if isfacel<isface2: 

cv2.rectangle(myimg, faceresult[0][0], faceresult[0][1], (255,0,255)) 

cv2.rectangle(myimgt, facet_result[0][0], facet_result[0][1], (255,0,255)) 
else: 
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cv2.rectangle(myimg, faceresult[1][0], faceresult[1][1], (255,0,255)) 
cv2.rectangle(myimgt, facet_result[0][0], facet_result[0][1], (255,0,255)) 

cv2.namedwindow( 'img2' ) 

cv2.imshow('img2', myimg) 

cv2.namedwindow( 'imgt' ) 

cv2.imshow('imgt', myimgt) 

cv2.waitKey() 

cv2.destroyAllwindows( ) 








运行 上 述 程序 后 ， 效 果 良 好 ， 在 图 11-5 中 ， 以 左 图 中 的 史密斯 的 脸 为 依据 ， 成 功 地 
在 右边 两 个 图 像 中 找到 史密斯 〈 方 框 中 标示 了 人 脸 ) 。 





到 imgt =- © img1 一 
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图 11-5 “人 脸 匹 配 
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11.2 手写 数字 识别 


手写 数字 识别 就 是 指 用 计算 机 读 取 含有 手写 数字 的 图 像 ， | 计算 
机 文字 表示 的 对 应 数字 。 SVM fess 分 类 、 手 写 文字 识别 、 图 像 分 类 、 ae IHE 
实际 应 用 中 表现 出 了 非常 好 的 性 能 。 下 面 应 用 SVM 算 法 对 1~9 的 手写 数字 图 像 进行 识别 。 











11.2.1 手写 数字 识别 算法 
1) 为 每 个 数字 各 准备 4 个 样本 图 像 ， 如 图 11-6 所 示 。 














图 11-6 ”数字 样本 图 像 
2) 将 图 像 大 小 调整 为 8x8 的 尺寸 ， 读 取样 本 图 像 。 


虽然 较 大 的 图 像 比较 小 的 图 像 尺 寸 更 清晰 ， 但 并 不 意味 着 它 能 更 好 地 表现 图 像 的 主 
要 特征 。 不 过 ， 由 于 手写 字体 不 规范 ， 因 此 较 大 的 尺 pees eaten ter 
To SAAR THREE, AUGER), BEZEL AL RANA H 
LASS AI 22 18K 但 这 样 一 来 ， 数字 的 主要 特征 就 更 加 突出 了 ， 
写字 体 不 规范 带 来 的 影响 。 比如 ， 如 图 11-7 所 示 的 数字 3， 从 左边 起 
寸 ， 第 二 张 是 20x20 的 尺寸 ， 而 第 三 张 则 是 8x8 的 尺寸 。 我 们 在 用 皮 
到 ， 随 着 尺寸 越 来 越 小 ， 图 像 越 来 越 模糊 ， 不 规范 的 细节 也 慢 慢 六 
的 尺寸 来 分 析 数 字 3 的 图 像 时 ， 提 取 的 特征 就 能 更 好 地 表达 图 像 。 


me 可 以 者 
Phe 当 计算 机 使 用 8x8 





图 11-7 不 同 尺寸 的 数字 3 图 像 
在 8x8〔 实 际 是 8x8x3， 因 为 调用 OpenCV 库 读 取 图 像 后 ， 会 多 出 一 维 空间 ， 多 出 的 这 
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维 空间 分 别 放置 了 红 、 绿 、 蓝 三 元 色 数 值 ) 的 图 像 矩 阵 中 ， 当 色彩 为 黑色 〈 数 字 字 体 的 颜 
色 ) 时 ， 表示 该 像素 的 特定 码 为 1， 奋 则 为 0， 形 成 的 像素 特征 码 组 成 了 样本 图 像 特 征 组 。 


现在 将 每 个 数字 类 别 的 样本 图 像 特征 组 作为 输入 ， 样 本 对 应 的 数字 值 作为 输出 ， 用 
SVM 进行 训练 。 
ea 读 取 未 知 样本 图 像 ， 将 未 知 图 像 调整 为 gx8 的 尺寸 ， 提 取 图 像 特 征 码 ， 生 成 图 像 
JEZE. o 


、 4) 将 未 知 样本 图 像 特征 组 送 入 SVM 仿 真 测试 ， 仿 真 输出 值 为 根据 图 像 识别 出 的 数 
字 。 





11.2.2 ”算法 的 Python 实现 


现在 根据 上 述 步 又 一 步 步 来 实现 。 首 先 ， 提 取 图 像 特征 ， 代 码 如 下 : 





def getnumc(fn): 
" "返回 数字 特征 














fnimg = cv2.imread(fn) 
img=cv2.resize(fnimg, (8,8) ) 
alltz=[] 
for now_h in xrange(0,8): 
xtz=[] 
for now_w in xrange(0,8): 
b = img[now_h, now_w, 0] 
g = img[now_h, now_w, 1] 
r = img[now_h, now_w, 2] 
btz=255-b 
gtz=255-g 
rtz=255-r 
if btz>0 or gtz>0 or rtz>0: 
nowtz=1 
else: 
nowtz=0 
xtz.append(nowtz) 
alltz+=xtz 
return alltz 





然后 训练 SVM 并 仿真 输出 。 代 码 如 下 : 





x=np.array(x) 

y=np.array(y) 

svm = mlpy.LibSvm(svm_type='c_svc', kernel_type='poly', gamma=10) 
svm.learn(x, y) 

print svm.pred(x) 





完整 的 Python 代码 如 下 : 





#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
#11-4.py 
import numpy as np 
import mlpy 
import cv2 
print ‘loading 
def getnumc(fn): 

" "返回 数字 特征 














fnimg = cv2.imread(fn) 
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img=cv2.resize(fnimg, (8,8) ) 
alltz=[] 
for now_h in xrange(0,8): 
xtz=[] 
for now_w in xrange(0,8): 
img[now_h, now_w, 0] 
g img[now_h, now_w, 1] 
r img[now_h, now_w, 2] 
btz=255-b 
gtz=255-g 
rtz=255-r 
if btz>0 or gtz>0 or rtz>0: 
nowtz=1 
else: 
nowtz=0 
xtz.append(nowtz) 
alltz+=xtz 
return alltz 
# 读 取样 本 数字 


numi in xrange(1,10): 

for numij in xrange(1,5): 
fn='nums/'+str(numi)+'-'+str(numij)+'.png' 
X.append(getnumc(fn) ) 
y.append(numi) 

x=np.array(x) 

y=np.array(y) 

svm = mlpy.LibSvm(svm_type='c_svc', kernel_type='poly', gamma=10) 

svm.learn(x, y) 

print svm.pred(x) 

for iii in xrange (1,10): 

testfn= 'nums/test/'+str(iii)+'-test.png' 

testx=[] 

testx.append(getnumc(testfn) ) 

print svm.pred(testx) 








最 后 ， 进 行 仿真 测试 。 
通过 对 如 图 11-8 所 示 的 未 知 样本 的 仿真 测试 得 知 ， 运 行 效果 不 错 。 


1} 12) 3} S 7 


1-test.png 2-test.png 3-test.png 4-test.pnq 5-test.ong 6-test.png 7-test.png 


9-testpng 
图 11-8 未知数 字样 本 
运行 效果 如 下 : 
loading  ,. ,训练 样本 测试 


[1. 1. 1. 1. 2. 2. 2. 2. 3. 3. 3. 3. 4. 4. 4. 4. 5 5. 
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B-test.png 





nums/test/1i-test. 


nums/test/2-test 


nums/test/3-test. 


nums/test/4-test 


nums/test/5-test. 


nums/test/6-test 


nums/test/7-test. 


nums/test/8-test 


nums/test/9-test. 
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9. 


9 . ] 未 知 图 像 测试 


11.3 ”运动 侦 测 


运动 侦 测 ， 英 文 翻译 为 “Motion Detection Technology”， 一 般 也 叫 移 动 检测 ， 是 指 通 
过 摄像 头 按照 不 同 的 帧 率 采 集 得 到 的 图 像 ， Raat e iL AL 
较 ， 当 画面 有 变化 时 ， Dd bin: 有 人 走 过 ， 镜 头 被 移动 ， 
eg ein Re Ee Fa SL, GRRE REL, MEIT RB 2 Ab 


移动 侦 测 技术 古 运动 检测 录像 技术 的 基础 ， 最 时 用 于 于 无 人 值守 监控 录像 和 上 自 劲 报 
S ECAD ZMH T PERN, 汽车 监控 锁 、 数 字 宝 护 神 、 屡 儿 监 视 器 、 自 动 取 
样 仪 、 自 识别 门禁 等 众多 安防 仪器 和 设施 上 。 











HHE 














11.3.1 视频 采集 


1. 视 频 采 集 


程序 11-5.py 演 示 了 视频 采集 ， 程 序 每 隔 15 毫 秒 检测 一 次 是 否 采 集 图 像 。 程 序 的 具体 
实现 方式 如 下 : 


首先 设置 捕获 设备 ， dS a EP DED ER 次 画面 显示 ， 并 检测 是 否 退 
出 ， 或 采集 图 像 ， 按 空格 键 则 退出 ， 按 c 键 则 捕获 当前 视频 的 图 像 。 

















# -*- coding: utf-8 -*- 
#coding:myhaspl@myhaspl.com 
#11-5.py 

import cv2 

# 设 置 需要 采集 视频 的 设备 





ID 为 


0, 从 第 


6 个 摄像 头 采集 





mycap=cv2.VideoCapture(0) 

id=0 

while True: 
ret, im=mycap.read() 
cv2.imshow( 'myvideo', im) 
# 每 





15 毫 秒 采集 





1 次 


key=cv2.waitKey(15) 
# 空 格 键 退出 


if key==32: 
break 
#C 键 采集 





elif key==ord('c'): 
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cv2.imwrite('vd_'+str(id)+'.png', im) 
id+= 





程序 11-5.py 运 行 后 ， 将 出 现 从 摄像 头 实 时 采集 的 图 像 ， 如 图 11-9 所 示 。 





图 11-9 摄像头 实 时 采集 的 图 像 1 
每 次 按 c 键 后 ， 采 集 连 接 图 像 ， 如 图 11-10 至 图 11-13 所 示 的 图 像 序列 。 
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图 11-10 ”图 像 序列 2 





图 11-11 ”图像 序列 3 


want call bbt .com OHA A TARE 





图 11-12 ”图 像 序列 4 





图 11-13 ”图 像 序列 5 


可 按 帧 生成 视频 图 像 序列 数组 ， 程 序 11-6.py 演 示 了 对 视频 图 像 的 抓 图 保存 。 
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İR j 
# -*- coding: utf-8 -*- 


#coding:myhaspl@myhaspl.com 
# 采 集 视 频 生 成 视频 帧 数组 





#11-6.py 
import cv2 
# 设 置 需要 采集 视频 的 设备 


ID 为 


0, 从 第 


OMELKA 





A 


mycap=cv2.VideoCapture(0) 

myframes=[] 

while True: 
ret, im=mycap.read() 
cv2.imshow( 'myvideo', im) 
BREE 





myframes.append(im) 
H 





1520K 





AF 


1 次 


key=cv2.waitKey(15) 
# 空 格 键 退出 


if key==32: 
break 
# 生 成 视频 帧 数组 





myframes=np.array(myframes) 





3. 读 取 视 频 文 件 


a 除了 从 摄像 头 采 集 数 据 外 ， 还 可 从 视频 文件 获取 视频 ， 用 如 下 格式 的 Python 代码 来 
SED: 





mycapture=cv2.VideoCapture(" 文 件 名 


my 





11.3.2 ”差分 算法 


1. 差 分 检测 
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差分 检测 根据 当 
体 ， 在 环境 亮度 变化 不 


前 图像 点 参考 图 像 的 关 别 分 折 类 基业 序列 攻 俐 中 是 在 有 证 动 的 
BL ee 


， 如 果 对 应 像素 灰 度 值 的 差异 SER RUA, WAA m 
BaF AD REAR KF FD BEL, WUD Ae HE 
出 运动 目标 在 图 像 中 的 位 置 。 

可 


x 根据 差分 的 参考 图 像 不 同 ， 可 以 分 为 基于 相 邻 帧 差 的 算法 和 基于 背景 图 像 与 当前 帧 
差 的 算法 : 基于 相 邻 帧 差 的 算法 是 将 前 后 两 帧 图 像 对 应 像素 点 的 灰 度 值 相 减 ， 基 于 背景 图 
像 与 当前 帧 差 的 算法 则 是 将 当前 帧 和 背景 帧 对 应 像素 的 灰 度 值 相 减 。 


下 面 将 以 实例 来 说 明 该 算法 。 图 11-14~ 图 11-19 是 某 视 频 的 6 个 截图 ， 根据 这 6 个 运动 
图 像 序列 ， 判 断面 而 在 何 时 出 现 了 运动 的 物体 ， 输 出 警告 信息 ， 并 生成 运动 效果 组 合 图 。 


E| 


sh 








图 11-14 ”视频 的 截图 1 
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图 11-15 ”视频 的 截图 2 





图 11-16 ”视频 的 截图 3 
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图 11-17 视频 的 截图 4 





图 11-18 ”视频 的 截图 5 
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图 11-19 ”视频 的 截图 6 


2. 基 于 相 邻 帧 差 的 算法 
基于 相 邻 帧 差 的 算法 过 程 如 下 ; 
1) 将 当前 帧 的 灰 度 图 像 与 前 一 帧 的 灰 度 图 像 相 减 ， 得 到 差分 值 ， AA MKT a 
六 值 时 ， 将 差分 矩阵 的 相应 位 置 设 置 为 1， 否 则 设置 为 0， 差 分 矩阵 的 计算 公式 如 下 : 
| fii) -f(ij)> THRESHOLD 
0 zh 


其 中 , fk G D 表示 第 k 个 图 像 矩 阵 〈i，j) 处 的 灰 度 值 ，D G, j 表示 差分 矩阵 
Gi, j) 处 的 值 。 


2) 如 果 差 分 矩阵 不 全 为 0， 则 表示 检测 到 运动 。 如 果 有 必要 ， 可 按 一 定 的 运动 检测 
次 数 对 运动 画面 进行 分 组 ， 并 融合 车 加 形成 多 组 运动 轨迹 图 。 


3) 取 下 一 帧 图 像 ， 转 到 (1) ， 直 到 所 有 帧 图 像 全 部 处 理 完毕 后 退出 。 
用 Python 代码 实现 该 算法 ， 如 程序 11-7.py 所 示 。 


Dli,j)= 


# -*- coding: utf-8 -*- 
#code:myhaspl@myhasp1.com 
# 差 分 运动 检测 ， 相 邻 帧 差 检测 画面 中 是 否 有 运动 的 物体 

















#11-7.py 


WwWVai bbt .cam OAA TAE 


import cv2 
import numpy as np 
# 读 取 运 动 序列 图 像 


fn=[] 

for i in xrange(6): 
fn.append(str(i+1)+".png") 

img=[] 

colorimg=[] 

myimg=[] 

for i in xrange(6): 
tmpimg=(cv2.imread(fn[i])) 
colorimg.append(tmpimg) 
myimg=cv2.cvtColor(tmpimg, cv2.COLOR_BGR2GRAY ) 
img. append(myimg) 

# 差 分 计算 


myimgi=colorimg[0].copy() 
myimg2=myimg1.copy() 
w=myimg1.shape[1] 
h=myimg1.shape[0] 
moveimgi=np.zeros((h,w),np.uints ) 
moveimg2=np.zeros((h,w,3),np.uints ) 
for ii in xrange(5): 

print u" 开 始 分 析 第 


"+Str(ii+2)+u" 个 运动 图 像 


myd=img[ii+1]-img[ii] 
# 生 成 差分 矩阵 





THRESHOLD=int (np.median(abs(myd) ) )# 取 中 位 数 做 为 阔 值 


mymove=np.ones([h,w],np.uint8) 
for i in xrange(h): 
for j in xrange(w): 
if abs(myd[i,j])<THRESHOLD or myd[i, j]==0: 
mymove[i, j ]=0 
# 如 果 有 物体 运动 则 输出 报警 ， 并 生成 运动 效果 全 加 图 





if np.sum(mymove)>0 : 
print u" 第 





"+Str (ii+2)+u" 个 运动 图 像 发 生 了 变化 


moveimg1=img[ii+1]*(1-mymove)*0.16+img[ii]*(1i-mymove)*0.16+moveimg1 
moveimg2=colorimg[ii+1]*0.16+colorimg[ii]*0.16+moveimg2 
moveimgi=np.array(moveimg1,np.uint8) 
moveimg2=np.array(moveimg2,np.uint8) 

# 显 示 运 动画 面 


# 计 算 运 动 部 分 


moveimgi=moveimg1-img[0] 
# 灰 度 图 二 值 化 以 更 好 地 显示 运动 的 效果 。 
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retval, showimgi=cv2.threshold(moveimgi1, 140, 255, cv2.THRESH_BINARY ) 
showimg1=showimg1 

showimg2=moveimg2 

cv2.imshow("movei", showimg1) 

cv2.imshow("move2", showimg2) 

cv2.waitKey() 

cv2.destroyAllwindows( ) 





运行 程序 11-7.py， 程 序 检测 到 第 2、3、4、6 帧 时 ， 图 像 发 生 了 变化 ， 运 行 结果 如 





开始 分 析 第 





2 个 运动 图 像 


n% 


2 个 运动 图 像 发 生 了 变化 





! 开 始 分 析 第 


3 个 运动 图 像 


TE 


3 个 运动 图 像 发 生 了 变化 





1 开始 分 析 第 


4 个 运动 图 像 


,第 





4 个 运动 图 像 发 生 了 变化 


! 开 始 分 析 第 


5 个 运动 图 像 


we ,开始 分 析 第 


6 个 运动 图 像 


,第 


6 个 运动 图 像 发 生 了 变化 











程序 11-7.py 绘 制 了 使 用 相 邻 帧 差分 法 检测 的 运动 效果 ， 如 图 11-20 所 示 。 


观察 图 11-20， 左 边 的 图 像 为 运动 图 像 的 融合 ， 右 边 的 图 像 为 程序 提取 运动 部 分 的 灰 
度 图 ， 可 较 直 观 地 看 出 手 拿 着 笔 摆动 时 的 运动 路 径 和 运动 速度 。 
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图 11-20 “运动 效果 





3. 基 于 背景 图 像 与 当前 帧 差 的 算法 

该 算法 的 具体 过 程 如 下 : 

D 将 当前 帧 的 灰 度 图 像 与 背景 灰 度 图 像 相 减 ， 得 到 差分 值 ， 当 差分 值 大 于 某 个 闵 值 
时 ， 将 差分 矩阵 的 相应 位 置 设置 为 1， 否 则 设置 为 0， 差 分 矩阵 计算 公式 如 下 : 


| falij-Ali THRESHOLD #¥ k € (2, n 
) 其 他 


ERF, f ” (i,，j) 表示 第 k 个 图 像 矩 阵 G, j 处 的 灰 度 值 ，D G, j) RRA 
阵 G, j) 处 的 值 。 


2) 如 果 差 分 矩阵 不 全 为 0， 则 表示 检测 到 运动 。 如 果 有 必要 ， 可 按 一 定 的 运动 检测 
次 数 对 运动 画面 进行 分 组 ， 并 融合 登 加 形成 多 组 运动 轨迹 图 。 


3) 取 下 一 帧 图 像 ， 转 到 〈1) ， 直 到 n 个 帧 的 图 像 全 部 处 理 完 毕 后 退出 。 
用 Python 代码 实现 该 算法 ， 如 程序 11-8.py 所 示 。 


D(i,j)= 





# -*- coding: utf-8 -*- 
#code :myhaspl@myhaspl.com 
# 差 分 运动 检测 ， 基 于 背景 图 像 与 当前 帧 差 来 检测 画面 中 是 否 有 运动 的 物体 

















#11-8.py 
import cv2 

import numpy as np 
# 读 取 运 动 序列 图 像 
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fn=[] 

for i in xrange(6): 
fn.append("mv"+str(it1)+".png") 

img=[] 

colorimg=[] 

myimg=[] 

for i in xrange(6): 
tmpimg=(cv2.imread(fn[i])) 
colorimg.append(tmpimg) 
myimg=cv2.cvtColor(tmpimg, cv2.COLOR_BGR2GRAY ) 
img.append(myimg) 

# 差 分 计算 


myimg=colorimg[9].copy() 
w=myimg.shape[1] 
h=myimg.shape[0] 
moveimg=np.zeros((h,w,3),np.uints ) 
for ii in xrange(5): 

print u" 开 始 分 析 第 





"+Str (ii+2)+u" 个 运动 图 像 


myd=img[ii+1]-img[0] 
# 生 成 差分 矩阵 





THRESHOLD=int (np.median(abs(myd) ) )# 取 中 位 数 做 为 阔 值 





mymove=np.ones([h,w],np.uint8) 
for i in xrange(h): 
for j in xrange(w): 
if abs(myd[i, j])<THRESHOLD or myd[i, j]==0: 
mymove[i, j ]=0 
# 如 果 有 物体 运动 则 输出 报警 


if np.sum(mymove)>0 : 
print u" 第 





"+Str (ii+2)+u" 个 运动 图 像 发 生 了 变化 


moveimg=colorimg[ii+1]*0.16+colorimg[ii]*0.16+moveimg 
moveimg=np.array(moveimg, np.uints) 
# 显 示 移 动 部 分 


showimg=moveimg 
cv2.imshow("move", showimg) 
cv2.waitKey() 
cv2.destroyAllwindows( ) 








程序 11-8.py 绘 制 了 检测 到 的 运动 效果 〈 如 图 11-21 所 示 ) ， 并 输出 结果 如 下 : 





开始 分 析 第 


2 个 运动 图 像 


. ,第 
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2 个 运动 图 像 发 生 了 变化 














! 开 始 分 析 第 


3 个 运动 图 像 


.第 





3 个 运动 图 像 发 生 了 变化 














! 开 始 分 析 第 


4 个 运动 图 像 


.第 


4 个 运动 图 像 发 生 了 变化 








开始 分 析 第 


5 个 运动 图 像 


.第 





5 个 运动 图 像 发 生 了 变化 


! 开 始 分 析 第 


6 个 运动 图 像 





从 图 11-21 中 可 较 直 观 地 看 出 手 拿 着 笔 摆 动 时 的 运动 路 径 和 运动 速度 。 
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图 11-21 检测 到 的 运动 


11.3.3 ”交流 法 


1. 光 流 法 概述 


光 流 (Optical Flow/Optic Flow) 是 关于 视 域 中 的 物体 运动 检测 的 概念 ， 用 来 描述 相 
对 于 观察 者 的 运动 所 造成 的 观测 目标 、 表 面 或 边缘 的 运动 。 光 流 法 在 模式 识别 、 计 算 机 视 

+ 中 非常 有 用 ， 可 用 于 运动 检测 、 物 件 切 制 、 碰 撞 时 间 与 物体 膨胀 的 计 
算 、 EAER, EIRE AAEN NEE, 


光 流 法 的 基本 原理 为 ， 光 流 是 空间 运动 物体 在 观测 成 像 面 上 的 像素 运动 的 瞬时 速 
度 。 交流 的 研究 大 利用 图 各 应 列 中 的 像 系 强度 数据 同时 域 变化 和 相关 性 来 确定 名目 像素 位 
置 的 “运动 "” 即 研究 图 像 灰 度 在 时 间 上 的 变化 与 景象 中 的 物体 结构 及 其 运动 的 关系 。 
情况 下 ， 光 流 是 由 相机 运动 、 场 景 中 的 目标 运动 或 两 者 的 共同 运动 产生 的 。 光 流 的 计算 广 
法 大 致 可 分 为 三 类 : 基于 匹配 的 、 频 域 的 和 梯度 的 方法 。 


光 流 法 的 前 提 假 设 如 下 : 

` 相 邻 帧 之 间 的 亮度 恒定 。 

` 相 邻 视 频 帧 的 取 帧 时 间 是 连续 的 ， 或 者 说 ， 相 邻 帧 之 间 物 体 的 运动 比较 “微小 ”。 
保持 空间 的 一 致 性 ， 即 同一 子 图 像 的 像素 点 上 共有 相同 的 运动 。 
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2.Python 实 现 


程序 11-9.py 从 摄像 头 采集 图 像 ， 然 后 对 每 个 连续 的 图 像 进行 光 流 估计 ， 并 绘制 流 和 天 
量 ， 效 果 如 图 11-22 所 示 。 











# -*- coding: utf-8 -*- 
#coding:myhaspl@myhaspl.com 
# 光 流 法 


#11-9.py 

import cv2 

import numpy as np 

def flowdraw(im, flow, step=14): 
# 绘 制 光 流 


h,w=im.shape[:2] 

y,X=np.mgrid[step/2:h:step, step/2:w:step].reshape(2, -1) 
fx, fy=flow[y,x].T 

# 线 终点 


lines=np.vstack([x,y,x+fx, y+fy]).T.reshape(-1, 2 2) 
lines=np.int32(lines) 
# 创 建 图 像 


myvis=cv2.cvtColor(im, cv2.COLOR_GRAY2BGR) 
for (x1,y1),(x2,y2) in lines: 
cv2.line(myvis, (x1, y1), (x2, y2), (0, 255,0),1) 
cv2.circle(myvis, (x1,y1),1,(0,255,0),-1) 
return myvis 
# 设 置 需要 采集 视频 的 设备 


ID 为 


0, 从 第 


6 个 摄像 头 采集 





mycap=cv2.VideoCapture(0) 
# 前 一 个 图 像 


ret, im=mycap.read() 
prev_pic=cv2.cvtColor (im, cv2.COLOR_BGR2GRAY ) 
while True: 

ret, im=mycap.read() 

BREE 





pic=cv2.cvtColor(im, cv2.COLOR_BGR2GRAY ) 
# 计 算 流 


myf low=cv2.calcOpticalFlowFarneback(prev_pic, pic,0.5,3,15,3,5,1,0) 
HE REL 


prev_pic=pic 
# 绘 制 流 矢量 
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cv2.imshow('myvideo flow ', flowdraw(pic,myflow) ) 
H 





15S DRI 





1 次 


key=cv2.waitKey(15) 
# 空 格 键 退出 


if key==32: 
break 
E 
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图 11-22” 光 流 法 
观察 图 11-22， 从 流 矢 量 线条 及 箭头 的 方向 中 可 以 发 现 手 电 简 正在 从 左 到 右 移 动 。 
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11.4.1 KNN 算 法 概述 
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去 


3 








H F-KNNV 


因此 对 于 类 


类 别 ， 





和 方形 是 









































法 关 





wawai bbt. can [7a ACHEDE 


图 11-23 Kit4 


sR y, 
7, 
A INN 


己 知 类 别 的 样本 对 圆 天 


以 二 维 样本 为 例 ， 利 用 KNN 方 


JEG 





适 。 


日 


利用 这 





对 图 11-23 的 圆 形 点 进行 KNN 分 类 的 有 具体 过 程 如 下 : 


1) 事先 定 下 k 值 〈 就 是 指 K 近 邻 方 法 中 k 的 大 小 ， 代表 对 于 一 个 待 分 类 的 数据 点 ， 要 
寻找 它 的 几 个 邻居 ) 。 为 讲解 方便 ， 取 两 个 k 值 ， 分 别 为 3 和 5。 


2) 根据 事先 确定 的 距离 度量 公式 (如 : 欧 氏 距离 》， 得 出 待 分 类 数据 点 和 所 有 已 知 







































































AREA tH EERE REA 

3) Suc ais airs names Eo a 如 图 12-15， 如 果 选 定 k 值 为 ?3， 则 正 类 样本 
(三 角形 ) a E 个 ， 那 么 就 把 这 个 HOA une 而 如 果 
选择 k 值 为 5， 则 正 类 样本 ( 二 第 范 ， AD PINE Oi ) 有 3 个 ， 那 么 将 这 个 数据 点 
人 根据 k 个 样本 中 ， 数 量 最 多 的 样本 是 什么 seh. AEE ee, 
RA 


11.4.2 “形状 特征 提取 


图 11-24 是 三 个 典型 的 形状 ， 分 别 是 方形 、 圆 形 和 三 角形 。 





图 11-24 ”典型 的 形状 
那么 如 何 提取 图 11-24 所 示 的 三 个 形状 的 特征 呢 ， 可 使 用 距 中 心 距 离 法 ， 具 体 过 程 如 

















1) 确定 图 像 的 中 心 点 center， 通 常 是 图 片 的 中 间 位 置 。 


) 计算 图 像 线 条 上 的 每 个 点 x 与 中 心 点 center 之 间 的 距离 (两 点 间 的 距离 公式 ) ， 形 
成 距离 向 重 0 


3) 计算 距离 向 量 d 的 标准 差 。 以 标准 差 为 最 终 特 征 值 。 























11.4.3 ”形状 分 类 




















本 算法 为 KNN 算 法 的 变 体 ， 本 案例 每 种 形状 只 提供 了 
中 的 K 信 皮 1 DEBE I AAEN 


算法 具体 过 程 为 : 首先 采集 样本 图 像 (图 11-24 所 示 的 样本 图 像 文件 名 从 左 到 右 分 别 
是 shape0.png、shapel. Png a g 的 特 wale 然后 以 未 知 形状 图 像 的 特 HIIR 
HUE, BITKNNAS, BRR KARIN ERARE E, MEDZU, XAA 
AO (方形 ) . 1 (HÆ) ever. or CRE lo pone 
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00 因此 ， 将 KNN 算 法 
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# -*- coding: utf-8 -*- 
#code:myhaspl@myhasp1.com 
人 # 形 状 检测 


#11-10.py 

import cv2 

import numpy as np 

def mydist(pointi, point2): 
# 了 两 点 间 的 距离 


return 
np.sqrt(np.power((point1[0]-point2[0]),2)+np.power((point1[1]-point2[1]),2)) 
# 离 中 心 点 距离 的 标准 差 


def getstd(tmpimg, centerpoint): 
w=tmpimg.shape[1] 
h=tmpimg.shape[0] 
dst=[] 
for i in xrange(h): 
for j in xrange(w): 
if tmpimg[i, j]<255: 
# 该 像素 不 是 空白 

















dst.append(mydist((i,j),centerpoint)) 
mysd=np.std(dst) 
return mysd 
# 读 取样 本 形状 图 像 ， 计 算 标准 差 


imgsd=[] 

testimgsd=[] 

mysdratio=[] 

centerpoint=(26, 26) 

for i in xrange(3): 
tmpimg=(cv2.imread("shape"+str(i)+".png")) 
myimg=cv2.cvtColor(tmpimg, cv2.COLOR_BGR2GRAY ) 
retval, newimg=cv2.threshold(myimg, 40, 255, cv2.THRESH_BINARY ) 
myimg=cv2.resize(newimg, (51,51) ) 
imgsd.append(getstd(myimg, centerpoint) ) 

print "-------------- i 

for i in xrange(4): 
# 测 试 样本 


fn="shapetest_"+str(i)+".png" 

tmpimg=(cv2.imread(fn) ) 

myimg=cv2.cvtColor(tmpimg, cv2.COLOR_BGR2GRAY ) 

retval, newimg=cv2.threshold(myimg, 40, 255, cv2.THRESH_BINARY ) 
myimg=cv2.resize(newimg, (51,51) ) 

# 得 到 距离 标准 差 


testimgsd.append(getstd(myimg, centerpoint ) ) 
mysdratio.append([]) 
for ii in xrange(3): 

# 与 样本 进行 比较 


mysdratio[i].append(abs(testimgsd[i]-imgsd[ii])) 
print U"KNN 距 离 矩阵 如 下 
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print mysdratio 
亲王 站 二 = 
#KNN 算 法 ， 找 到 最 近邻 


for i in xrange(4): 
fn="shapetest_"+str(i)+".png" 
myindex=0 
mymin=np.min(mysdratio[i]) 
for ii in xrange(3): 
# 测 试 样本 最 终 分 类 


if (mysdratio[i] [ii] )==mymin: 
myindex=ii 
break 
print fn+u" 分 类 为 : 


"+str(myindex) 








执行 程序 11-10. as an LH IK NNEEE eS FEE Ae TAAR, KRR, ZAI 
形 ， 类 别 2 表 示 三 角 结果 如 下 : 





KNN 距 离 矩阵 如 下 


[[0.71030223330565079，0.75471514364899916，3.9533561391620591]， [1.2922713309313281, 0.17274604 


shapetest_0.png 分 类 为 : 


0 
shapetest_1.png 分 类 为 : 


1 
shapetest_2.png 分 类 为 : 


2 
shapetest_3.png 分 类 为 : 





程序 11-10.py 使 用 的 测试 图 像 如 图 11-25 所 示 。 
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DOAY 


shapetest_0.png 


. 观察 图 11-25 及 程序 11-10. by 的 输 册 结果 eis 试图 像 的 分 类 


果 还 不 错 。 


为 提高 分 类 准 丰 














ie, 















































实践 中 可 采用 标准 的 KNN 算 法 ， LAN as 更 多 的 
分 类 的 方法 为 ; 如 果 与 未 知 形 状 的 个 最 相似 的 大 多 数 样 本 属 RH 
形状 也 属于 这 个 类 别 。 









































shapetest_3.png 


ARJ, 效 


rA 


样本 ， 





， 那 么 该 未 知 


15 asa 




















计算 机 视觉 研究 使 机 器 ba ls AR, AT ALS E 和 机 器 学 习 的 范畴 。 

觉 实 现 的 主要 方式 是 ， 首先， 使 用 摄像 机 等 设备 采 ee Paar Mie, i 
进行 预 处 理 和 和 加工， 提取 和 转 征 ; 最 后 ， 分 析 图 像 待 征 ， 挖掘 图 像 包 含 的 知识 和 信息 本 章 
讲述 了 运用 机 器 学 习 算 法 对 视频 和 图 像 进行 加 工 、 分 析 、 提 取 特 征 、 总 结 知识 等 技术 ， 首 
先 介绍 了 人 脸 辨 识 的 算法 ， 然 后 讲解 了 手写 数字 识别 的 算法 ， 最 后 讲述 了 运动 侦 测 技术 和 

法 的 过 程 中 ， 注 重 实践 效果 ， 每 个 实例 均 用 Python 进行 实 


形状 检测 的 方法 ， 在 讲解 这 些 算 
现 ， 以 验证 算法 的 有 效 性 。 
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CH 
ax 
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(1) 以 多 个 图 像 进行 更 多 的 人 脸 辨 识 实验 ， 尝 试 应 用 更 多 的 机 器 学 习 算法 ， 比 如 应 


SVM 和 神经 网 络 ， 





用 
的 权重 ’ 总 结 各 算法 的 实际 应 用 效果 。 


(2) 实现 从 a 到 





或 者 对 欧 氏 距 六 算法 进行 进一步 改进 ， 对 人 脸 的 不 同 部 位 赋予 不 同 








z 的 24 个 字母 图 像 的 识别 算法 ， 要 求 识别 未 知 样本 图 像 表 征 的 字母 。 








(3) 运用 本 章 介 绍 的 运动 侦 测 方法 ， 分 析 自 己 的 计算 机 摄像 头 所 采集 的 视频 。 


(4) 运用 本 章 介 
入 ) 手势 进行 识别 ， 








绍 的 形状 检测 方法 或 其 他 方法 ， 对 某 类 复杂 的 鼠标 〈 或 触摸 屏 输 
比如 以 下 FA: 
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第 12 章 ”文本 分 类 案例 


在 网 络 信息 时 代 ， 全 球 正面 临 着 前 所 未 有 的 信息 爆炸 式 增 长 的 挑战 ， 中 文 信息 处 理 
也 迎 来 了 高 速 发 展 。 各 果 折 有 入 海 和 的 中 文 文字 数据 对 监 所 知识 的 提取 依旧 信 ; 
单 查询 、 Ea a a 文 信 
ai 快速 AGUA ESE 户 所 要 的 信息 是 当前 信息 科学 和 技术 所 面临 的 














”证 
aba 
pt 
qa 
EDHE 
ons 





























BUNS BOR ECT Mik CS P e ALY Tees 文本 分 类 等 文 
的 热 本 挖掘 是 





























于 数据 挫 据 领域 中 被 研究 的 热点 。 文 本 挖 所 是 人 工 智能 、 机 器 学 习 、 目 然 

aves CRIES CIO AR Ema) E E Siren “e 
ECAH Sak E (UsMy MMR TL. H 

KARARI CEAS, MARERA AARRE AAEE ARIE 


别 ， 它 是 对 复杂 类 型 的 数据 进行 挖掘 的 技术 。 
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12.1 文本 分 类 概述 


近年 来 ， 随 着 互联 网 的 高 速 发 展 和 大 数据 
用 于 越 来 越 多 的 领域 。 Tr BERGA SCH 
便 、 准 确 地 记录 用 户 数据 ， 产 生 了 大 量 的 半 
Cee vat Wea A 例如 文本 分 机 
法 的 ， NL ELEC VL PR CL T 
个 广告 学 >) HREN. HELLRE pE Hinapi nAz, Pah 
本 的 核心 算法 ， 智 能 输入 法 需要 分 析 用 户 输入 习惯 及 输入 的 词句 ， 自 动 客服 系统 四 原始 的 
词语 匹配 技术 转变 为 基于 文本 挖 握 的 自然 语 定理 解 算法 。 


0 a 分 类 就 是 根据 数据 集 的 特点 找 出 类 别 的 概 
念 描述 ， 个 概念 描述 代表 了 这 类 数据 的 整体 信息 ， 也 就 是 该 类 六 述 ， 
AHO HDA AOR I MLTR, 


时 代 的 到 来 ， 文 本 分 类 等 文本 挖掘 技术 应 
PARI EN HFEF. TRANE 
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文本 挖掘 算法 在 搜索 引擎 中 一 直 扮 演 着 重要 的 角色 ， 搜 索引 擎 每 个 阶段 的 发 展 都 伴 
MESA IR. 1990, (T HETO efter Kifach. 通过 文件 名 匹 

术 完 成 了 文本 检索 。1993 年 ， 世 界 Spider 程序 一 World Wide Web Wanderer 
SEIS Ae ea TAN EA Pat Tbe LOMA ARM, HE, Stanton ne LOLS 
Excite， 它 通过 分 析 字 词 关系 进行 更 有 效 的 检索 ， a 1994 年 ， 杨 致 
远 和 David Filo 共 eT Yahoo, Yahoo 网 站 的 分 类 目录 由 人 工整 理 维护 ， 他 们 会 精 选 互联 
网 上 的 优秀 网 站 ， 进 行 简要 描述 后 ， 分 类 放置 到 不 同 目录 个。 用 户 查 询 时 ， 通 过 一 层 层 的 
点 击 来 查找 自己 想 找 的 网 站 ， 人 工分 类 精准 度 高 ， 但 工作 量 很 大 。 同 年 Lycos 正 式 发 布 ， 
ee ea 掘 技术， 包括 : 相关 性 排序 、 HEC ALE EIR AL. 网 
页 自动 摘要 等 。1995 年 ， 更 多 的 文 人 ae AleVisia 在 搜索 引擎 中 引入 A 
We SEHR, SEL EME (如 A 97 年 ， 文 本 自动 分 类 
技术 首次 应 用 于 Northernlight 搜 索引 擎 ， Waa ae alae pa de AA Ae BRR Fa) 分 
类 。 同 年 ，google.com 的 域名 被 Larry ”Page 注册 ，Google 横 空 出 世 ， 之 后 发 展 成 为 今天 的 
搜索 业 巨 头 。2013 年 全 球 在 线 广告 襄 收 中 ， Google 预 计 占有 超过 33% 的 市 场 份额 ， 在 全 球 
移动 广告 营 收 中 ， ee Google 研 究 和 应 用 了 大 量 文本 挖掘 算法 ， 例 
如 : Pagerank. 动态 摘要 、 网 页 快照 、 DailyRefiesi 多 文档 格式 支持 等 。 有 人 评论 说 
Googlea ach 11 MN 2001 年 ， 百 度 搜索 引擎 发 布 ， 和 Google 一 样 ， 百 度 也 
了 很 多 文本 挖掘 算法 网 页 快照 、 相 关 搜 索 词 、 错 别 字 纠正 、Flash 搜 索 、 信 
息 快 递 Ee. 图 像 搜索 、 新 闻 搜 索 等 。 
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”近年 来 ， 借 助 模式 识别 算法 ， 文 本 分 类 技术 飞速 发 展 。 文 本 分 类 大 致 分 为 几 个 要 
A: 文本 向 量 模型 表示 、 文本 特征 选择 和 文本 训练 分 类 器 。 目前 比较 流行 的 分 类 方法 主要 
有 SVM、 改 进 余弦 相似 度 、 贝 叶 斯 方法 、 神经 网 络 、 k2 最 近 令 方法、 遗传 算法 、 粗 糙 集 
等 。 文 本 分 类 算法 通常 包括 文本 预 处 理 〈 中 文 分 词 、 去 除 停 用 词 ) 、 文本 特征 提取 、 样本 
特征 学 习 及 算法 对 未 知 样本 的 预测 等 过 程 。 














AS EES AAR SAAR. BD ZR UTP RSE AE, PAB CAR SRA 
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12.2 ”余弦 相似 度 分 类 


基于 余弦 相似 度 的 文本 分 类 算法 实现 的 基本 过 程 为 ， 首 先 对 样本 文本 进 和 
HRA, OIE I ah 4 所 有 词 映 射 到 n 维 空间 的 
并 计算 未 知 文本 特征 组 形成 各 量 之 间 夹 角色 
EEC RIKI ABBE 





12.2.1 中文 分 词 





中 文 分 词 指 的 是 将 一 个 汉字 序列 切 分 成 一 个 个 单独 的 词 。 中 文 分 词 是 文本 挖掘 的 基 
而， 对 于 正中 文 文 本 ， 中 文 分 词 是 文本 目 动 识别 的 前 提 。 目 前 党 用 的 中 文 分 软件 主要 

















“SCWS。 基 于 词 频 词典 的 机 械 中 文 分 词 引擎 ， 它 能 将 一 整 段 的 汉字 革 本 正确 地 切 分 
成 词 。 采 用 的 是 采集 的 词 频 词典 〈 词 频 TF 指 某 一 个 给 定 的 词语 在 一 份 给 定 的 文件 里 出 现 
的 次 数 ， 近 年 来 ， 利 用 计算 机 进行 词 频 统计 ， 以 词 频 统计 的 结果 来 验证 词典 收 词 的 得 类 ， 
决定 哪些 词 需要 收录 ， 中 文 词 频 词典 按 词 频 排 序 存储 词语 和 词组 ，， 并 辅 以 一 定 的 专 有 名 
称 、 人 和 名、 地名、 数字 、 年 代 等 识别 规则 ， 从 而 达到 基本 分 词 的 目的 。 


:ICTCLAS。 这 是 最 早 的 中 文 开 源 分 词 项 目 ， 在 国内 973 专 家 组 组 织 的 评测 活动 中 获 
得 了 第 一 名 ， 在 第 一 届 国 际 中 文 处 理 研究 机 构 SigHan 组 织 的 评测 中 获得 了 多 项 第 一 名 。 
ICTCLAS 全 部 采用 C/C++ 编 写 ， 支持 Linux、 DW 支持 
C/C++、C#、Delphi、Java 等 主流 的 开发 语 


.HITPCWS。 基 于 HTTP 协 议 的 开源 小 词 系统 ， 将 取代 之 前 的 PHPCWS 中 文 分 
































=, 











扩展 。 
eo ‘Fed fap ie]. MateNavaik Ss, Heeftlucence 〈 一 款 流行 的 Java 全 文 搜索 引擎 ) 











`CC-CEDICT。 提 供 一 份 以 汉语 拼音 为 中 文 辅助 的 汉 英 辞典 ， 其 词典 可 以 用 于 中 文 分 
词 ， Chromath oF BURR REX Cot N EAN 词 的 。 


“ZEA” (Jieba) 中 文 分 词 。 Python 中 文 分 词组 件 Jieba 支 持 3 种 分 词 模式 : 精确 模式 ， 
试图 将 句子 最 精确 地 切 开 ， 适合 文本 分 pit; 全 模式 ， Hoe) Ft AA Bd CLA ROGET A 
描 出 来 ， 速 度 非常 快 ， Po 解决 歧义 ; 搜索 引擎 模式 ， 在 精确 模式 的 基础 上 ， 对 长 词 
再 次 切 分 ， 提 高 招 回 率 ， 适 合用 于 搜索 引擎 分 词 。 


本 章 基 Foy, W 因此 选择 “结巴 ”中 文 分 词 作 为 分 词组 件 库 。 
在 http://pypi.python. i/jieba 处 下 载 ， 解 压 后 运行 pythonsetup.py tot 进行 安装 。 下 
面 的 代码 演示 了 分 A Jieba 的 基本 使 用 方法 。 



















































































#!/usr/bin/env python. 

#-*- coding: utf-8 
#code:myhaspl@qq.com 

#12-1.py 

import sys 

sys.path.append("../") 

import jieba 

seg_list = jieba.cut(" 我 来 到 北京 清华 大 学 


", cut_all= True) ， 
print "Full Mode: "/ " join(seg_list) # 全 模式 


seg_list = jieba.cut(" 我 来 到 北京 清华 大 学 
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", cut_all=False) 
print "Default Mode:", "/ ".join(seg_list) # 默认 模式 


seg_list = jieba.cut(" 他 来 到 了 网 易 杭 研 大 厦 


") 
print ", ".join(seg_list) 
seg_list = jieba.cut_for_search(" 小 明 硕士 毕业 于 中 国 科学 院 计算 所 ， 后 在 日 本 京都 大 学 深造 




















") # 搜索 引擎 模式 


print ", ".join(seg_list) 





演示 程序 的 分 词 效果 如 下 


/ 我 





i 
Default Mode: 我 
/ 来 到 


/ 北京 


WwWVai bbt. cam DEEA CEE 















































计算 所 









































”中 文 分 词 有 一 个 困难 ， 就 是 会 再 I 歧义 。 同 样 的 一 句 话 ， 可 外 有 两 种 或 者 更 多 的 切 
方法 。 主要 的 歧义 有 两 种 : 交集 型 歧义 和 组 合 型 歧义 。 例 如 : 语句 中 出 现 了 “漂亮 他 
因为 "漂亮 5: 和“ 亮 的 "都 是 词 ， 那么 这 个 短语 就 可 以 分 成 “ 漂 亮 /的 和 < 漂 / 亮 的 > 这 种 称 为 
集 型 上 疏 义 。 组 合 型 歧义 情况 更 复杂 ， 要 根据 整个 句 型 来 判断 ， 比 如 : 句子 “2010 年 底部 
友谊 篮球 赛 结 束 ", “底部 ”是 一 个 词 , “年 底 ?” 是 一 个 词 , “部 队 ?* 是 一 个 词 , “队友 ”是 一 个 
Al, “友谊 ”是 一 个 词 ， 而 分 词 不 能 曲解 句子 含义 ， 这 样 就 产生 了 分 词 困难 。 


,i 朋 前 太 部 分 分 记 软 件 能 较 好 地 解决 玫 义 问题 。 下 面试 着 应 用 "结巴 "分 词 对 “2010 年 底 
部 队友 谊 黎 球 赛 结 束 "分 词 。 代 码 如 下 














ES 




















#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
#12-2.py 

import jieba 
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seg_list = jieba.cut("2010 年 底部 队友 谊 篮球 赛 结束 


", cut_all=False) 
print "Default Mode:", "/ ".join(seg_list) # 默认 模式 








eae ee eee EP 
YN LEH o 





Default Mode: Building Trie..., from E:\WinPython-32bit-2.7.5.1\python-2.7.5\lib\site- 
packages\jieba\dict.txt 

loading model from cache c:\users\admini~1\appdata\local\temp\jieba.cache 

2010/ 年 底 





N 


部 队 


/ 友谊 


SS 
ea 
& 
ae 


loading model cost 1.26200008392 seconds. 
Trie has been built succesfully. 


上 面 执行 结果 的 第 种 数据 结构 , “结巴 ， 
Trie 称 前 绥 树 或 字典 树 ， 是 一 种 有 序 树 ， 用 于 保存 关联 数组 ， 
TZE RAAR, 键 不 是 直接 保存 在 节点 中 的 ， 而 是 由 节点 

点 的 所 有 子孙 都 有 相同 的 前 经 ， 也 就 是 这 个 节点 对 应 的 字符 
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12.2.2” 停 用 词 清理 





A a 完成 目 然 语言 理解 与 文本 分 类 等 任务 时 ， 都 需要 预 处 理 文 本 ， 
自动 过 滤 掉 某 些 不 和 有 表征 意义 的 字 、 词 或 符号 ， 这 些 字 或 词 被 称 称 为 停 用 词 (Stop 
Words) 。 进 行文 本 分 词 后 形成 的 词 条 组 中 会 存在 很 多 停 用 词 ， ee Le PEAS 
本 特征 的 能 力 ， 其 存在 会 影响 其 他 词 对 文本 特征 的 表征 能 力 ， 因 此 ， 需 要 过 滤 后 才能 形 
成 “干净 ”的 文本 特征 码 。 


例如 ， 对 下 面 这 句 话 进行 分 词 :“ 春 秋 时 期 有 一 个 农夫 ， 他 总 是 嫌 田 里 的 庄稼 长 得 太 
Me ha 导 不 苗 好 像 总 没有 长 高 。 他 心 想 :， 有 什么 办 法 能 使 它们 



































#!/usr/bin/env python 

#-*- coding: utf-8 -*- 

#code:myhaspl@qq.com 

#12-3.py 

import jieba 

seg_list = ]jieba,cut(" 春 秋 时 期 有 一 个 农夫 ， 他 总 是 嫌 田 里 的 庄稼 长 得 太 慢 ， 今 天 去 瞧 瞧 ， 明 天 去 看 看 ， 觉 得 禾苗 好 像 总 没有 长 高 。 他 
心 想 : 有 什么 办 法 能 使 它们 长 得 高 些 快 些 呢 ? 





























", cut_all=False) 
print "Default Mode:", "/ ".join(seg_list )## 默 认 模 式 
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LBs Rel, Aime IL A ELLE, 
i W 理 的 方式 是 建立 停 用 词 表 ， 扫 描 分 词 结 果 ， 从 中 剔除 停 用 词 表 中 的 词 条 。 
SY 下: 








#!/usr/bin/env python 

#-*- coding: utf-8 -*- 

#code:myhaspl@qq.com 

#12-3.py 

import jieba 

seg_list = ]jieba,cut(" 春 秋 时 期 有 一 个 农夫 ， 他 总 是 嫌 田 里 的 庄稼 长 得 太 慢 ， 今 天 去 瞧 瞧 ， 明 天 去 看 看 ， 觉 得 禾苗 好 像 总 没有 长 高 。 他 
心 想 : 有 什么 办 法 能 使 它们 长 得 高 些 快 些 呢 ? 



































", cut_all=False) 
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liststr="/ ".join(seg_list) 
print u"------ 清理 前 的 词 条 


# 停 用 词 清理 




















f_stop = open('stopwords.txt') 
try: 
f_stop_text = f_stop.read( ) 
f_stop_text=unicode(f_stop_text, 'utf-8') 
finally: 
f_stop.close( ) 
f_stop_seg_list=f_stop_text.split('\n') 
for myword in liststr.split('/'): 
if not(myword.strip() in f_stop_seg_list) and len(myword.strip())>1: 
print myword,',', 











从 直观 上 看 ， 清 理 停 用 词 后 留 下 的 文本 词 条 表征 文本 的 能 力 都 比较 强 。 来 比较 一 





Default Mode: 春秋 时 期 
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seed 清理 后 的 词 条 
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12.2.3 ”算法 实战 


1. 任 务 描述 


假设 提供 了 一 个 描述 成 争 的 样本 数据 ， 如 图 12-1 所 示 。 现 在 需要 对 两 个 未 知 类 型 文 
本 进行 分 析 ， 它 们 的 内 容 如 图 12-2 和 图 12-3 所 示 ， 判 断 哪 个 文本 是 描述 战争 类 的 。 


a5 SRE TRO) 语法 (S) BKB) BOW BAH) 

ansalla gj|x ae E E it ? = 

Be pS H310 A Eo >A” 
Wt DIAN STENEDE EN. ARET Ree 可 
名利 亚 ， 发 动 Bie. HE DAE 


美国 军 方 强调 , “圣安东尼奥 号 (USS San Antonio) 为 两 栖 战 舰 ， 任 务 与 其 他 军舰 不 同 >， 
， 若 对 叙利亚 发 动 军事 行动 ,，“ 圣 安东尼 奥 "号 舰 上 数 百 名 陆 战 队员 不 会 参与 作战 。 





军 一 T, AUR SAS RA SERHS, TIEAN, IRE | 
tS RERREEKR EE ROLES REDE ü 


官员 说 ，“ 怪 安东尼 奥 ' 号 留 驻 当地 ， 是 为 以 防 万 一 。” 


奥巴马 政府 3 日 公布 4 页 长 的 情报 报告 ， 宣 布 美国 “高 度 确信 ’ 阁 利 亚 阿 萨 德政 权 上 周 在 > 
大 马 士 革 部 区 使 用 了 化 学 武器 ， 导 到 超过 1488 作 死亡， 美国 将 您 神 阿 萨 德政 权 。 


rated Sle aot d ARI, SEVSSies A eth heats oie EN? 
, BSL 对 叙利亚 发动 车 事 打 击 ， 千 方 下 令 其 中 两 艘 执行 完 住 务 的 军舰 暂 不 返 
SH PS EM Pa SSE AIS E SAR. 


同时 ， 美 军 部 署 在 海湾 地 区 的 航母 增 至 两 般 。 其 中 执行 完 任务 的 忆 米 就 “号 航母 暂 不 返 
， 留 在 印度 渗 待 命 ， 与 已 经 抵达 阿拉 伯 海 换 防 的 EE) SMG ET E. 


根据 国防 部 官员 ， 以 上 这 5 贸 驱 未 舰 各 配备 约 至 少 36 枚 战 委 巡航 导弹 ， 总 . 数 约 为 298 恢 。 





图 12-1 ”描述 战争 的 样本 文本 
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图 12-2 ”描述 战争 的 未 知 类 型 文本 
2. 算 法 过 程 
用 余弦 相似 度 算法 完成 上 述 文本 分 类 任务 的 过 程 如 下 : 
1) 读 取样 本 文本 。 
2) 对 文本 进行 utf-8 编 码 转 换 。 
3) 对 文本 进行 预 处 理 ， 完 成 中 文 分 词 ， 形 成 词 条 库 ， 并 去 除 停 用 词 。 


4) 读 取 文本 词 条 库 ， 统 计 每 个 词 条 的 词 频 。 词 频 代 表 了 每 个 词 对 一 段 文 本 的 的 重要 
程度 ， 字 词 的 重要 性 随 着 它 在 文件 中 出 现 的 次 数 成 正比 增加 。 


5) 将 上 一 步 整理 形成 的 每 个 词 的 词 频 组 成 文本 的 词 条 词 频 特 征 码 。 
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文件 (F) SRE LRM 语法 (S) eRe) BOW) ”帮助 (H) 
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州 公 

和 和 ict, um, EES | 
E BIRER 

A T AE 

fee DH RMEE LORE 


* yin, 自 | 
et 


自己 购买 的 每 月 150v 的 手机 演 量 ,车 当 月 治 育 用 完 , 下 月 | 
Re SRLREOR. EARN HAREM ABE RS 


CEREN BIG WI ANNT TE, RNE 
EEN WETE WAR, HMH AEREN, 
Me, B 58M 几 内 流量 ， Wee ERD, Rea 
或 朋友 ( 关 似 二 LE. AERO. 


TAME oes 但 是 ， 广 州 电信 相关 负责 人 表 E 


+t 


限制 条 件 ， 未 来 有 设 有 可 能 放 开 限 制 ， 直 接 让 用 户 享受 包 
Reon 只 在 今年 内 有 效 ， 人 但 会 根据 促销 情况 ， 继 续 进 行 活 





图 12-3 ”描述 手机 的 未 知 类 型 文本 
6) 使 用 前 面 第 1 步 到 第 5 步 的 方法 分 析 待 分 类 文本 ， 生 成 待 分 类 文本 的 词 条 词 频 特 征 


) 将 竺 分 类 文本 的 词 条 词 频 特 征 码 与 样本 的 词 条 词 频 特 征 码 进行 比较 ， 人 
EEUNA 和 分 类 文本 与 样本 的 相似 度 ， 取 最 相似 的 类 型 为 最 终 分 类 的 类 型 


下 面 用 Python 实现 上 述 算法 过 程 。 
1) 读 取 样本 文本 ， 完 成 utf-8 编 码 转换 ， 然 后 进行 中 文 分 词 。 





print 

print 'loading ...' 
print 'working', 

f1 = open(sampfn) 
try: 


y: 
fi_text = f1.read( 
fi_text=unicode(fi_text, 'utf-8') 
finally: 
fi.close( ) 
fi_seg_ list = jieba.cut(fi_text) 





2) 对 文本 词 条 进行 预 处 理 ， 去 除 停 用 词 ， 计 算 每 个 词 条 的 词 频 。 














# 去 除 停 用 词 ， 同 时 构造 样本 词 的 字典 





f_stop = open('stopwords.txt') 
try: 
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f_stop_text = f_stop.read( 
f_stop_text=unicode(f_stop_text, 'utf-8') 
finally: 
f_stop.close( ) 
f_stop_seg_list=f_stop_text.split('\n') 
test_words={} 
all_words={} 
for myword in fi_seg_list: 
print ".", 
if not(myword.strip() in f_stop_seg_list): 
test_words.setdefault (myword, 0) 
all_words.setdefault (myword, 0) 
all_words[myword]+=1 








3) 读 取 待 分 类 文本 ， 进 行 中 文 分 词 。 





# 第 一 个 待 测试 数据 


ftest1 = open(ftestifn) 
try: 
ftest1 text = ftest1.read( ) 
ftesti_text=unicode(ftesti_text, 'utf-8') 
finally: 
ftesti.close( ) 
ftesti_seg_list = jieba.cut(ftest1_text) 
# 第 二 个 待 测试 数据 


ftest2 = open(ftest2fn) 
try: 
ftest2_text = ftest2.read( ) 
ftest2_text=unicode(ftest2_text, 'utf-8') 
finally: 
ftest2.close( 
ftest2_seg_list = jieba.cut(ftest2_text) 





A) 继续 预 处 理 待 分 类 文本 ， 去 除 停 用 词 ， 并 生成 词 频 特征 码 。 








# 读 取 待 测试 文本 


mytest1_words=copy.deepcopy(test_words) 
for myword in ftest1 seg_ list: 
print ".", 
if not(myword.strip() in f_stop_seg_list): 
if mytest1_words.has_key(myword): 
mytest1_words[myword]+=1 
mytest2_words=copy.deepcopy(test_words) 
for myword in ftest2_seg_ list: 
print ".", 
if not(myword.strip() in f_stop_seg_list): 
if mytest2_words.has_key(myword): 
mytest2_words[myword]+=1 


5) 计算 并 输出 样本 与 待 测试 文本 的 余弦 相似 度 。 


# 计 算 样本 与 待 测试 文本 的 余弦 相似 度 








sampdata=[] 

testidata=[] 

test2data=[] 

for key in all_words.keys(): 
sampdata.append(all_words[key] ) 
testidata.append(mytest1_words[key] ) 
test2data.append(mytest2_words[key] ) 
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testisimi=get_cossimi(sampdata, testidata) 
test2simi=get_cossimi(sampdata, test2data) 
print u"%s 与 样本 


[%s ] 的 余弦 相似 度 


:%f"%(ftestifn, sampfn, test1isimi) 
print u"%s 与 样本 


[%s ] 的 余弦 相似 度 


:%f"%(ftest2fn, sampfn, test2simi) 





上 面 这 段 代 码 调 用 了 get_cossimi 函 数 ， 这 是 余弦 相似 度 计算 函数 。 该 函数 的 定义 如 





def get_cossimi(x,y): 
myxX=np.array(x) 
myy=np.array(y) 
cosi=np.sum(myx*myy) 
cos21=np.sqrt(sum(myx*myx) ) 
cos22=np.sqrt(sum(myy*myy) ) 
return cosi/float(cos21*cos22) 





6) 根据 屏幕 输出 的 相似 度 ， 预 测 分 类 。 


两 个 向 量 之 间 的 角度 余弦 值 确定 两 个 向 量 是 否 大 致 指向 相同 的 方向 。 如 果 两 个 向 量 
有 相同 的 指向 ， 余 弦 相 似 度 的 值 为 1; 如 果 两 个 向 量 夹 角 为 09， 余弦 相似 度 的 值 则 为 0。 可 
见 ， 余 弦 相 似 度 越 接 近 1， 两 个 文本 就 越 相 似 。 











i 








mobile2 .txt 与 样本 


[war2 .txt] 的 余弦 相似 度 


:0.160806 
war1.txt 与 样本 


[war2 .txt] 的 余弦 相似 度 


:0.264215 





上 面 是 代码 的 执行 结果 ， 分 析 这 个 结果 可 得 出 结论 : mobile2.txt 与 war2.txt 的 余弦 相 
似 度 较 小 ，warl.txt 与 war2.txt 的 余弦 相似 度 为 0.264215， 更 接近 1。 因 此 ， 应 将 warl.txt 文 
本 文件 划分 为 战争 类 。 


以 下 是 全 部 源 代码 : 





#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
#12-4. py 

import numpy as np 
import jieba 

import copy 
ftestifn='mobile2.txt' 
ftest2fn='wari.txt' 
sampfn='war2.txt' 

def get_cossimi(x,y): 
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myx=np.array(x) 

myy=np.array(y) 
cosi=np.sum(myx*myy) 
cos21=np.sqrt(sum(myx*myx) ) 
cos22=np.sqrt(sum(myy*myy) ) 
return cosi/float(cos21*cos22) 
name__ == '__main__': 





print 
print ‘loading ...' 
print 'working', 
f1 = open(sampfn) 
try: 
fi_text = f1.read( 
fi_text=unicode(fi_text, 'utf-8') 
finally: 
fi.close( ) 
fi_seg_list = jieba.cut(fi_text) 
# 第 一 个 待 测试 数据 


ftest1 = open(ftestifn) 
try: 
ftesti_text = ftest1.read( 
ftesti_text=unicode(ftesti_text, 'utf-8') 
finally: 
ftesti.close( ) 
ftesti_seg_list = jieba.cut(ftest1_text) 
# 第 二 个 待 测试 数据 





ftest2 = open(ftest2fn) 
try: 
ftest2_text = ftest2.read( 
ftest2_text=unicode(ftest2_text, 'utf-8') 
finally: 
ftest2.close( ) 
ftest2_seg_list = jieba.cut(ftest2_text) 
# 读 取样 本 文本 








# 去 除 停 用 词 ， 同 时 构造 样本 词 的 字典 











f_stop = open('stopwords.txt') 
try: 
f_stop_text = f_stop.read( 
f_stop_text=unicode(f_stop_text, 'utf-8') 
finally: 
f_stop.close( ) 
f_stop_seg_list=f_stop_text.split('\n') 
test_words={} 
all_words={} 
for myword in fi_seg_list: 
print ".", 
if not(myword.strip() in f_stop_seg_list): 
test_words.setdefault (myword, 0) 
all_words.setdefault (myword, 0) 
all_words[myword]+=1 
# 读 取 待 测试 文本 





mytest1_words=copy.deepcopy(test_words) 
for myword in ftest1 seg_ list: 
print ".", 
if not(myword.strip() in f_stop_seg_list): 
if mytest1_words.has_key(myword): 
mytest1_words[myword]+=1 
mytest2_words=copy.deepcopy(test_words) 
for myword in ftest2_seg_list: 
print ".", 
if not(myword.strip() in f_stop_seg_list): 
if mytest2_words.has_key(myword): 
mytest2_words[myword]+=1 
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# 计 算 样 本 与 待 测试 文本 的 余弦 相似 度 


sampdata=[] 

testidata=[] 

test2data=[] 

for key in all_words.keys(): 
sampdata.append(all_words[key] ) 
testidata.append(mytest1_words[key] ) 
test2data.append(mytest2_words[key] ) 

testisimi=get_cossimi(sampdata, testidata) 

test2simi=get_cossimi(sampdata, test2data) 

print u"%s 与 样本 


[%s ] 的 余弦 相似 度 


:%f"%(ftestifn, sampfn, testisimi) 
print u"%s 与 样本 


[%s ] 的 余弦 相似 度 


:%f"%(ftest2fn, sampfn, test2simi) 


二 = 
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12.3 ”朴素 贝 叶 斯 分 类 
贝 叶 斯 是 一 种 基于 概率 的 学 习 算法 ， 其 性 能 可 与 决策 树 、 神经 网 络 等 算法 相 媲 美 ， 
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其 具有 坚实 的 数学 理论 基础 ， 并 且 能 综合 先 验 信息 和 数据 样本 信息 ， 因 此 成 为 当前 机 中 学 
习 和 数据 挖掘 的 研究 热点 之 一 朴素 贝 叶 斯 分 类 涯 是 目前 公认 的 一 种 简单 有 效 的 概率 分 类 
方法 ， 这 种 分 类 方法 具有 非常 和 的 计算 效率 ， 在 划 些 应 用 问题 上 表现 出 较 好 的 分 类 精度 ， 
因而 被 广泛 地 应 用 于 文本 挖掘 领域 。 


12.3.1 算法 描述 














标准 的 朴素 贝 叶 斯 分 类 算法 的 执行 过 程 如 下 : 

1) 获取 样本 文本 ， 将 样本 人 工分 类 整理 ， 并 进行 标记 。 
2) 对 每 个 类 别 的 样本 文本 进行 中 文 分 词 

3) 去 除 样本 文本 中 垃圾 词 条 。 


4) 将 整理 后 词 条 合成 样本 文本 的 特征 组 ， 分 析 并 计算 词 条 频率 信息 。 例 如 : 假设 共 
有 3 个 类 别 的 文 末 ， 词 条 i 在 类 唱和 ABC 中 出 钢 的 次 数 分 别 为 COUNT (A), COUNT; 
(B), COUNT; (C)， 每 个 类 pels Ay ORDCOUNT rete 
WORDCOUNT(G), s Gees es 总 数 与 词 条 在 每 个 类 别 出 现 的 次 数 就 能 
算 词 条 频率 ， 计 算 方 式 是 : 词语 在 每 个 类 别 出 现 的 次 数 除 以 该 类 别 的 总 词语 数 。 


比如 ， 某 类 am 
文件 中 的 词 频 就 是 0.05 (5/100) 。 


5) 根据 词 条 频率 信息 ， 计 算 词 条 在 各 类 别 文本 的 先 验 概率 。 词 条 i 的 各 类 别 先 验 概 
率 计算 公式 为 : 


Pi (A)=COUNT; (A)/WORDCOUNT(A) 

















Pi (B)=COUNT; (B)/WORDCOUNT(B) 
Pi (C)=COUNT; (C)/WORDCOUNT(C) 
6) 读 取 未 知 样本 ， 进 行 中 文 分 词 ， 并 去 除 垃圾 词 ， 然 后 形成 样本 特征 组 。 


7) 将 未 知 样本 特征 词 条 的 先 验 概率 代入 朴素 贝 叶 斯 公式 计算 后 验算 概率 ， 计 算得 到 
的 最 大 概率 的 所 属 类 别 即 为 广 本 所 属 类 别 。 


























12.3.2” 先 验 概 率 计 算 








同一 条 词 条 在 不 同类 型 的 文本 中 出 现 的 频率 通常 是 不 一 样 的 ， 很 多 词 条 只 会 在 某 些 

别 的 文本 中 出 现 ， 比 如 说 < 微软 ^ AR, ER. EAN” 

而 “ 黑 DA RE “ n “ z “ 信 ” 等 i ; i 4 

EEE E TUNES 别 中 样本 的 词 条 ， 分 析 其 在 所 有 类 别 中 出 现 的 概率 ， 它 

n T 生成 词 条 先 验 概率 哈 希 数组 〈 在 Python 中 称 为 字典 结构 ) ， 以 供 后 期 分 
;去 o 


根据 朴素 贝 叶 斯 的 先 验 概 率 计 算 公式 来 看 ， 在 后 期 计算 中 ， 需 要 计算 词 条 先 验 概率 
累 乘 。 如 果 某 词 在 某 类 型 的 样本 中 从 来 没有 出 现 ， 其 概率 为 0， 这 样 将 会 使 累 乘 结果 变 为 
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率 基 础 上 加 上 一 个 适当 
中 
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12.3.3 ”最 大 后 验 概率 





对 未 知 文本 分 类 时 ， 需 要 计算 后 验 概率 ， 对 于 在 未 知 文本 中 出 现 的 词 条 ， 提 取 其 在 
A a 然后 分 别 计算 不 同类 型 哈 希 出 现 的 词 条 的 先 验 概率 
Spence 而 得 到 未 知 文本 属于 不 同类 型 的 后 验 概 率 ， 其 中 ， 最 大 概率 所 属 类 别 即 为 未 知 文 


所 属 类 别 。 





12.3.4 算法 实现 





别提 取 数 量 几乎 相同 的 新 闻 文 本 作为 样本 ， 这 些 样本 属于 汽车 、 财 经 、 健 
康 、 xe Cs 对 样本 进行 分 析 。 为 了 验证 效果 ， 最 后 使 用 未 在 样本 中 出 现 的 新 
闻 正 文 链接 进行 测试 分 析 该 链接 措 向 的 新 闻 所 属 关 别 。 











1. Fe ME AY 
提取 新 闻 文 本 的 原理 与 搜索 引擎 相同 。 首 先 ， 通 过 类 似 疏 虫 的 程序 对 新 闻 进 行 {TE 
分 析 新 闻 主 页 的 新 闻 正 文 链接 ; RAEG EAR, HTML; 然后 形成 








SKE 本 ， 为 提高 效率 ， 仅 在 内 存 中 形成 文本 样本 ， 不 在 本 地 硬盘 保存 ;最 后 ， 以 内 存 数 
据 为 基础 ， 进 行 下 一 步 分 机。 相关 代码 如 下 : 





# 读 取 网 上 新 闻 搜 索 目 录 


txt_class=[] 
myclassfl = open('ClassList.txt') 
try: 
myclass_str = myclassfl.read() 
myclass_str=unicode(myclass_str, 'gbk') 
myclass_text=myclass_str.split() 
for ii in xrange(0, len(myclass_text),2): 
print " 
txt “class. append((myclass_text[ii],myclass_text[iit+1])) 
finally: 
myclassfl.close() 
links=[] 
# 分 类 别 息 取 网 页 ， 生 成 词 条 数据 





for ci in xrange(0,len(txt_class)): 
print u"\njeX 


%S 类 网 页 


:%s" % (txt_class[ci][0], txt_class[ci][1]) 
links.append([]) 
pattern = re.compile(r'(.*?)/\d+\.shtml1' ) 
purl=txt_class[ci][1] 
page=urllib2.urlopen(purl) 
soup = BeautifulSoup(page) 
for link in soup.find_all('a'): 
mylink=link.get('href') 
match = pattern.match(mylink) 
if match and mylink.find("hd")<0: 
basestr="http://www.chinanews.com" 
if mylink.find("chinanews.com")<0: 
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mylink=basestr+mylink 
print mylink 
links[ci] .append(mylink) 











2. 先 验 概率 计算 
提取 不 同类 别 中 样本 的 词 条 ， 分 析 其 在 所 有 类 别 中 出 现 的 概率 ， 生 成 以 词 条 为 键 值 
的 告 验 概率 字典 2 验 概率 计算 公式 ， 在 后 期 计算 中 ， 需 要 
验 概率 率 基 上 一 个 适当 的 较 小 的 概率 
值 ， BSG TRUCE: 


+z 
i: 
EES 
R 
wer 
ee 
my 
reg 
H 
Sal o 
= 
cw 
Pas 
Nea 
… ARE 
Agi 
> 
zia 
RE 
TF 
ae 
S> 
a5 








# 词 条 在 每 个 样本 中 出 现 的 次 数 








basegl=1e-8 

wordybcount={} 
lbcount=np.zeros(len(yb_txt) ) 
# 整 理 计算 词 条 出 现 次 数 


for i in xrange(0,len(yb_txt)): 
for j in xrange(0,len(yb_txt[i])) 
for k in xrange(0,len(yb_txt[i][j])): 

my_word=yb_txt[i][j][k].encode('gbk' 
wordybcount.setdefault (my_word, np.repeat(0,len(yb_txt)).tolist()) 
wordybcount [my_word] [i]+=1 
lbcount [i]+=1 

# 计 算 词 条 先 验 概率 


print u"\n 计 算 词 条 概率 


ybg1={} 
for my_word in wordybcount.keys(): 
ybgl.setdefault(my_word,np.repeat(0.,len(yb_txt)).tolist()) 
for ybii in xrange(0,len(yb_txt)): 
ybgl[my_word] [ybii]=basegl+wordybcount [my_word] [ybii]/float(lbcount[ybii] ) 


print '.', 


3. 后 验 概 率 计 算 
读 取 待 分 类 文本 的 先 验 概 率 字 典 变量 ， 提 每 个 词 条 的 先 验 概率 值 ， 然 后 计算 不 同 





ASL LSA IEEE, Le AUR ROCA TARR 型 的 后 验 概率 。 代 码 
HD: 





# 计 算 待 分 类 文本 后 验 概 率 


print u" 计 算 待 分 类 文本 后 验 概率 


testgl=None 
wordgl=None 
testgl=np.repeat(1.,len(yb_txt)) 
for myword in ftest_seg_list: 
if not(myword.strip() in f_stop_seg_list) and len(myword.strip())>1: 
myword=myword.encode( 'gbk' ) 
for i in xrange(0,len(yb_txt)): 
wordgl=ybg1.get (myword) 
if wordgl: 
if wordgl[i]<>0: 
testgl[i]*=wordgl[i] 
if np.min(testgl)<1e-50: 
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testgl*=1e20 
if np.max(testgl)>1e100: 
testgl/=float(1e30) 





运行 程序 ， 读 取 网 页 http:/www.chinanews.comy/edu/2013/09-17/5296319.shtml 
tt Di fac chinanews. com/auto/2013/09- 16/5290491.shtml  ， 以 这 两 个 网 页 Saunt So 


行 分 类 。 执 行 结果 如 下 








nate Rind aha 读 取 待 分 类 文本 


http://www. chinanews .com/edu/2013/09-17/5296319.shtml 


读 取 成 功 


,计算 待 分 类 文本 后 验 概率 


http://www. chinanews .com/edu/2013/09-17/5296319.shtml1 


:教育 


计算 待 分 类 文本 后 验 概率 


http://finance.chinanews .com/auto/2013/09-16/5290491. shtml 











Lae 两 个 新 闻 链 接 被 成 功 地 划分 到 教育 类 新 闻 和 汽车 类 新 闻 ， 分 类 








本 例 中 ， 样 本 数量 较 小 ， 在 实际 应 用 中 ， 每 个 类 别 应 准备 更 多 的 样本 文本 。 通 常 来 
说 ， 一 个 分 类 效果 较 好 的 村 素 贝 叶 斯 算法 ， 其 每 个 类 别 的 样本 数量 大 致 有 2000~10000 
个 ”近年 来 ， 基 于 朴素 岁 叶 斯 分 类 的 改进 算 污 越 来 各 多 ， 最 普 记 的 侈 在 算 丢 中 加 入 权重 的 
影响 ， 针 对 某 些 关键 词 或 中 心 词 加 上 权重 ， 这 种 方法 法 被 称 为 加 权 杆 素 贝 叶 斯 算 然 。 


关于 加 权 朴 素 贝 叶 斯 算法 的 更 多 细节 ， 可 以 查看 在 《厦门 大 学 学 报 : 日 然 科 学 学 版 》 
2012 年 第 4 期 上 刊登 的 饶 丽 丽 等 的 文章 《基于 特征 相关 的 改进 加 权 和 朴素 页 叶 斯 分 EH 


法 》， 也 可 以 在 Google 学 术 搜索 (http://scholar.google.com.hk/schhphl=zh-CN ) oan 
朴素 贝 叶 斯 分 类 算法 "为 关键 字 进 行 搜索 。 
以 下 是 完整 的 Python 代 码 : 









































S; 























#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
#12-5.py 

#bayes 文 本 分 类 


# 本 程序 仅 做 机 器 学 习 研究 
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# 本 程序 对 新 闻 疏 取 的 工作 原理 与 搜索 引擎 相同 ， 通 过 分 析 链 接 





# 直 接 搜索 新 闻 


,计算 词 条 概率 


import numpy as np 

import jieba 

import urllib2 

from bs4 import BeautifulSoup 
import re 

# 读 取 网 上 新 闻 搜 索 目 录 


txt_class=[] 
myclassfl = open('ClassList.txt') 
try: 
myclass_str = myclassfl.read() 
myclass_str=unicode(myclass_str, 'gbk') 
myclass_text=myclass_str.split() 
for ii in xrange(0,len(myclass_text),2): 
print ".", 
txt_class.append((myclass_text[ii],myclass_text[ii+1])) 
finally: 
myclassfl.close() 
links=[] 
# 分 类 别 息 取 网 页 ， 生 成 词 条 数据 





for ci in xrange(0,len(txt_class)): 
print u"\n 扑 取 


%S 类 网 页 


:%s" % (txt_class[ci][0],txt_class[ci][1]) 
links.append([]) 
pattern = re.compile(r'(.*?)/\d+\.shtml') 
purl=txt_class[ci][1] 
page=urllib2.urlopen(purl) 
soup = BeautifulSoup(page) 
for link in soup.find_all('a'): 
mylink=link.get('href') 
match = pattern.match(mylink) 
if match and mylink.find("hd")<0: 


basestr="http://www.chinanews.com 


if mylink.find("chinanews.com")<0: 
mylink=basestr+mylink 
print mylink 
links[ci] .append(mylink) 
# 提 取 正 文 内 容 


ybtxt=[] 
print u"\n 提 取 正 文 内 容 


for ci in xrange(0,len(txt_class)): 
ybtxt.append([]) 


print ".", 
for mypage in links[ci]: 
try: 


my_page=urllib2.urlopen(mypage) 
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except: 
continue 
my_soup = BeautifulSoup(my_page, from_encoding="gb2312" ) 
my_tt=my_soup.get_text("|", strip=True) 
my_txt=my_tt 
my_fs=u' 正文 


my_fe1=u'【 编 辑 


my_fe2=u' 标签 


zw_start=my_txt.find(my_fs)+8 

last_txt=my_txt[zw_start:len(my_txt) ] 

zw_end=last_txt.find(my_fe1) 

if zw_end<0: 

zw_end=last_txt.find(my_fe2) 

page_content=my_txt[zw_start:zw_start+zw_end] 

page_content=page_content.replace(r'_acK({aid:1807, format:0,mode:1, gid:1, serverbaseurl:" 
mat:0,mode:1,gid:1,serverbaseurl:"me.afp.chinanews.com/"}','').replace('cK();','') 

page_content=page_content.replace(u'1807: 新 闻 通 发 页 


大 


E 


','').replace(u' ts: 


','').replace(u' iit 


','').replace(u' EX 


start 编 辑 姓名 


Start 编 辑 姓名 


','').replace(u' 正文 


start','') 
if len(page_content.strip())>0: 
try: 
print my_soup.title.string.encode('gb2312') 
page_content=my_soup.title.stringt+tpage_content 
except: 
print "...." 
finally: 
print "-done." 
ybtxt[ci] .append(page_content) 
# 分 析 正 文 内 容 


print u"\n 分 析 正 文 内 容 


# 停 用 词 字典 


f_stop = open('stopwords.txt') 
try: 
f_stop_text = f_stop.read( 
f_stop_text=unicode(f_stop_text, 'utf-8') 
finally: 
f_stop.close( ) 
f_stop_seg_list=f_stop_text.split('\n') 
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# 分 类 提取 正文 词 条 


print u"\n 提 取 正 文 词 条 


yb_txt=[] 
for ci in xrange(0,len(ybtxt)): 
yb_txt.append([]) 
for cj in xrange(0,len(ybtxt[ci])): 
yb_txt[ci].append([]) 
my_str = ybtxt[ci][cj] 
my_txt=jieba.cut(my_str) 
for myword in my_txt: 
if not(myword.strip() in f_stop_seg_list) and len(myword.strip())>1: 
yb_txt[ci][cj].append(myword) 
print ".", 
# 词 条 在 每 个 样本 中 出 现 的 次 数 








basegl=1e-10 

wordybcount={} 
lbcount=np.zeros(len(yb_txt) ) 
# 整 理 计 算 词 条 出 现 次 数 


for i in xrange(0,len(yb_txt)): 
for j in xrange(0,len(yb_txt[i])): 
for k in xrange(0,len(yb_txt[i][j])): 

my_word=yb_txt[i][j][k].encode('gbk') 
wordybcount.setdefault (my_word, np.repeat(0, len(yb_txt)).tolist()) 
wordybcount [my_word] [i]+=1 
lbcount [i]+=1 

# 计 算 词 条 先 验 概率 


print u"\n 计 算 词 条 概率 


ybg1={} 
for my_word in wordybcount.keys(): 
ybgl.setdefault (my_word,np.repeat(0.,len(yb_txt)).tolist()) 
for ybii in xrange(0,len(yb_txt)): 
ybgl[my_word] [ybii]=basegl+wordybcount [my_word] [ybii]/float(lbcount[ybii] ) 
print '.', 
# 读 取 待 分 类 文本 


print u"\n 读 取 待 分 类 文本 


ftestlinks=[] 
ftestlinks.append(r'http://www.chinanews.com/edu/2013/09-17/5296319. shtml 


ftestlinks.append(r'http://finance.chinanews.com/auto/2013/09-16/5290491. shtml 


for mypage in ftestlinks: 
my_page=ur1lib2.urlopen(mypage) 
my_soup = BeautifulSoup(my_page, from_encoding="gb2312") 
my_tt=my_soup.get_text("|", strip=True) 
my_txt=my_tt 
my_fs=u' 正文 


my_fet=u' [4 
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my_fe2=u' 标签 


zw_start=my_txt.find(my_fs)+8 

last_txt=my_txt[zw_start:len(my_txt) ] 

zw_end=last_txt.find(my_fe1) 

if zw_end<0: 

zw_end=last_txt.find(my_fe2) 
page_content=my_txt[zw_start:zw_start+zw_end] 
page_content=page_content.replace(r'_acK({aid:1807, format:0,mode:1, gid:1,serv- 

erbaseurl:"me.afp.chinanews.com/"});','').replace('|','').replace(r'{aid:1805, format:0,mode:1, gi 

page_content=page_content.replace(u'1807: 新 闻 通 发 页 


大 


国 


','').replace(u' ts: 


aso 


replace(u'ifit 


','').replace(u' EX 


start 编 辑 姓名 


Start 编 辑 姓名 


','').replace(u' if 


start','') 
page_content=my_soup.title.stringt+tpage_content 
print u"%s 读 取 成 功 


. "%mypage 
# 计 算 待 分 类 文本 后 验 概率 


print u" 计 算 待 分 类 文本 后 验 概率 


testgl=None 
wordgl=None 
testgl=np.repeat(1.,len(yb_txt) ) 
if len(page_content.strip())>0: 
ftest_seg_list = jieba.cut(page_content) 
for myword in ftest_seg_list: 
myword=myword.encode('gbk' ) 
if not(myword.strip() in f_stop_seg_list) and len(myword.strip())>2: 
for i in xrange(0,len(yb_txt)): 
wordgl=ybgl.get (myword) 
if wordgl: 
if wordgl[i]<>0: 
testgl[i]*=wordg1l[i] 
if np.min(testgl)<1e-100: 
testgl*=1e30 
if np.max(testgl)>1e100: 
testgl/=float(1e30) 
# 计 算 最 大 归属 概率 


maxg1=0. 
mychoice=0 
for ti in xrange(0,len(yb_txt)): 
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if testgl[ti]>maxgl: 
maxgl=testgl[ti] 
mychoice=ti 
print "\n\n%s\n:%s"%(mypage, txt_class[mychoice] [0] ) 
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124， 自 然 语言 处 理 


自然 语言 处 理 (NLP) 是 计算 机 科学 领域 与 人 工 智能 领域 中 的 一 个 重要 方向 ， 是 一 
门 融 语言 学 、 计 算 机 科学 、 数 学 于 体 的 学 科 ， - 征 计 算 机 科学 、 ?能 、 语 言 
ARAA AR BS MINOR ELIE BL es 类 水 平 的 自然 语言 处 理 ， 是 
AT RAEI EVE, NEPISE i fa Aa ue A OE PA 
论 和 方法 ， 相 当 于 解决 中 央 的 人 工 智能 问题 ， 使 计算 机 
能 。 风 此 NLP 的 未 来 也 会 密切 结合 人 工 智能 的 发 展 击 发 



































12.4.1 ”NLTK 简 介 


NLTK 是 一 个 用 来 完成 NLP 的 Python 处 理 包 、。 _NLIK 致 力 于 打造 使 用 Python 程序 的 人 
类 语言 工作 平台 ， 它 提供 了 易于 使 用 的 接口 、 大 量 的 英文 语料库 和 词汇 资源 ， 连 同一 套 文 
本 处 理 库 的 分 类 标记 、 堵 塞 、 标 注 、 句 法 分 析 、 语 义 推理 、 工 业 强 度 的 NLP 库 包装 及 活 
跃 的 论坛 ， 可 用 于 Windows、Mac OS X, Linux eee EBA. 


更 为 重要 的 是 : NLTK 是 一 个 免费 的 、 开 源 的 、 社 区 驱动 的 项 目 。 


此 外 ， NLTK 虽 然 支 持 unicode 编 码 的 文本 中文 可 采用 unicode 编 码 ， 通 常 为 utf- 
8) ， 但 它 是 为 处 理 身 文 文本 而 生 的 ， 因 此 NLTK 对 英文 的 支持 比 中文 更 好 。 鉴 于 上 述 原 
因 ， ERP. 可 结合 jieba 中 文 分 词组 件 来 完成 NLP 的 相关 工作 。 























12.4.2 ”NLTK 与 jieba 的 配置 


1.NLTK 的 安装 与 配置 


首先 打开 NLTK 的 官网 http://www.nltk.org/ ， 下 载 相关 平台 的 安装 包 并 安装 好 ， 然 后 
在 Python 交互 解释 器 下 执行 下 面 的 语句 : 





>>> import nltk 
>>> nltk.download( ) 





E re 将 出 现 NLTK 包 的 下 载 界面 ， 选 择 下 载 目录 后 ， 按 Download 键 (如 图 12-4 所 
o 下 载 完 毕 后 ， 在 Python 的 安装 目录 下 新 建 nltk da 将 下 载 的 文件 拷 入 其 
a 笔者 的 WinPython 安 装 目 录 如 下 





Hal 
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4 NLTK Downloader 
File View Sort Help 


Collections 
Identifier Size Status 
All packages n/a partial 


all-corpora All the corpora 
book Everything used in the NLTK Book 

















Cancel 


Server Index:|http: //www.nltk.org/nltk_data/ 
Download Directory: E : \nltkdownload 





图 12-4 NLTK 包 下 载 
E:\\WinPython-32bit-2.7.10.3\\python-2.7.10\\nltk_data 
将 nltk_data 找 入 其 中 后 ， 效 果 如 图 12-5 所 示 。 
上 述 步骤 全 部 完成 后 ， 可 在 Python 交互 解释 器 下 输入 如 下 人 代码， 进行 测试 ; 


wwniwai bbt. cam DREA ÉE 














此 电脑 ，datal (E:) > WinPython-32bit-2.7.10.3 > python-2.7.10 > nitk data 


名 称 (Baam E 


F} chunkers 2016/1/26 17:28 X#E 
F} corpora 2016/1/26 17:31 X#E 
F grammars 2016/1/26 17:31 WHEE 
F help 2016/1/26 17:31 X#E 
F| models 2016/1/26 17:31 X#E 
F| stemmers 2016/1/26 17:31 iE 
E taggers 2016/1/26 17:31 Xi 
F tokenizers 2016/1/26 17:31 34k 





图 12-5  nitk_data#% Jl 





>>> import nltk 

>>> sentence = """At eight o'clock on Thursday morning 
Drin sane Arthur didn't feel very good.""" 

>>> tokens = nltk.word_tokenize(sentence) 

>>> tokens 

['At', 'eight', "o'clock", 'on', 'Thursday', 'morning', ' 
>>> 以 空格 分 隔 的 中 文 


.', 'Arthur', 'did', "n't", 'feel', ' 


>>> mystr=" 您 好 


世界 


>>> tokens = nltk.word_ tokenize(mystr) 
>>> tokens 

['\xc4\xfa\xba\xc3', '\xca\xc0\xbd\xe7' ] 
>>> 





2.jieba 中 文 分 词组 件 的 安装 与 配置 


网 首先 ， 下 载 jieba 组 件 并 解压 缩 。 接 着 ， 打 开 控 制 台 ， 输 入 以 下 命令 来 查看 目录 的 结 





E:\WinPython-32bit-2.7.10.3\python-2.7.10>cd E:\jieba-0.38 
E:\jieba-0.38>dir 


2016/01/27 08:27 <DIR> 


2016/01/27 08:27 <DIR> be 
2016/01/27 08:27 <DIR> jieba 
2015/12/16 16:28 2617 PKG-INFO 
2015/12/16 16:09 2571 setup.py 
2016/01/27 08:27 <DIR> test 
2 站 文件 
5188 字 节 
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4 个 目录 











69 317 844 992 可 用 字 节 

















然后 ， 观 察 上 述 目 录 结 构 ， 可 看 到 目录 下 有 setup.py 文 件 ， 执 行 这 个 文件 进行 安装 。 





E:\jieba-0.38>python setup.py install 


byte-compiling E:\winPython-32bit-2.7.10.3\python-2.7.10\Lib\site- 
packages\jieba\__main__.py to __main__.pyc 

running install_egg_info 

Writing E:\WinPython-32bit-2.7.10.3\python-2.7.10\Lib\site-packages\jieba-0.38-py2.7.egg-info 








12.4.3 ”中 文 分 词 并 标注 词性 


_. NLTK 和 jieba 安 装配 置 完 毕 后 ， 可 测试 一 个 中 文 分 词 和 词性 标注 的 程序 《如 12-6.py 所 
ZN ° 





#encoding=utf -8 
#--coding:utf-8-- 
#code by myhaspl 
# 分 词 ， 词 性 


#12-6.py 
from _ future _ import unicode_literals 
import nltk 
import sys 
sys.path.append("../") 
import jieba 
from jieba import posseg 
def cutstrpos(txt): 
# 分 词 


+ 词性 


cutstr = posseg.cut(txt) 
result="" 
for word, flag in cutstr: 
resultt+=word+"/"+flag+' ' 
return result 
def cutstring(txt): 
# 分 词 


cutstr = jieba.cut(txt) 


result="_".join(cutstr) 
return result 
# 读 取 文件 


txtfileobject = open('nltest1.txt') 
textstr="" 
try: 

filestr = txtfileobject.read( ) 
finally: 

txtfileobject.close( ) 
# 中 文 分 词 并 标注 词性 
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posstr=cutstrpos(filestr) 
strtag=[nltk.tag.str2tuple(word) for word in posstr.split()] 
for word,tag in strtag: 
print word,"/",tag,"|", 
# 进 入 语料库 


cutstr=cutstring(filestr) 
mytext=nltk.text.Text(cutstr) 
# 在 该 语料库 中 查找 包括 





wA 


"的 语句 


print(mytext.concordance(u" A 


")) 





观察 程序 12-6.py 可 发 现 ， 它 演示 了 以 下 两 种 分 词 方式 。 
(1) 纯 中 文 分 词 


custo 函数 负责 文本 的 中 文 分 词 ， HELE Bee H fieba RA Meut B OR ER, 分 割 的 
词 使 用 空格 分 离 的 方式 进行 标注 ， 代 码 片断 如 下 所 示 : 








def cutstring(txt): 
词 


cutstr = jieba.cut(txt) 
result="_".join(cutstr) 
return result 





C2) 中 文 分 词 并 标注 词性 


custrposill SA OCT OL 词 ， 并 标注 词性 ， ‘Gil, Ht Ree 
来 完成 ， 访 cut 函数 将 返回 一 个 列表 ， 列 表 中 是 由 形 如 *〈 词 ， 词 性 ) ”格式 

因此 ， 分 割 的 词 使 用 空格 分 离 的 方式 进行 标注 的 同时 ， 还 需要 使 用 “分 割 符 (也 可 使 用 
其 他 非 空 格 的 分 割 字符 ) 将 词 与 词性 进行 分 离 。 cutstpos 谓 数 代 稳 片断 如 下 所 示 : 




















def cutstrpos(txt): 
词 


+ 词性 


cutstr = posseg.cut(txt) 

result="" 

for word, flag in cutstr: 
result+=word+"/"+flagt+' ' 

return result 








此 外 ，Concordance 函 数 可 显示 指定 的 词 在 某 语 料 库 中 的 出 现 情 况 ， 并 显示 一 些 上 下 





文 。 
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程序 12-6.py 的 运行 效果 如 下 : 


据 















































P | 国外 

S | 媒体 报道 
N | 

X | 美国 
NS | 科学 家 
N | 近 

T | 获得 

V | 了 

UL | 2800 / M | 万 美元 
M | < 

X | we 
VN | 1.84 / M| Z 
M | ART 
N | ) 

X | 的 

UJ | 研究 
VN | 经 费 
VN | ， 

X | 我 们 

R | 迟早 会 
NR | 设计 
VN | 出 

V | 一 款 


WwWVai bbt. cam DREA 





mére 














/ V | R% 
JV | 
/X | 其 至 
/ D | 超越 
/ V | 人 类 
A/N| 的 


/ UJ | 计算 机 系统 


/N | 


/ X |Displaying 11 of 11 matches: 
00 为 


元 


约 





的 


研 


经 
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WEA 





mére 





























模 


oe 


似 





计 


划 


mp 
or 
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观察 上 述 运行 效果 ， 第 一 段 是 中 文 分 词 与 词性 标注 的 结果 ， 第 二 段 是 将 文本 加 入 
NLTK 语 料 库 ， 并 在 i MEER Oe MARCIE HAR o 


提示 。 NLTK 的 i 百 料 库 对 英文 ee 
如 果 使 用 NLTKi 吾 料 库 对 中 文 进行 处 理 ，j 青 慎 重 使 用 ， 反 复 调 试 。 


12.4.4” 词 特征 指标 分 析 


1. 词 频 统计 
程序 12-7.py 演 示 了 如 何 调用 NLTK 模 块 的 函数 进行 词 频 统计 。 





wwwai bbt .cam OHARA THE 

















#--coding:utf-8-- 
#code by myhaspl 
# 词 频 分 析 


#12-7.py 
from __future__ import unicode_literals 
from _ future _ import division 
import nltk 
import sys 
sys.path.append("../") 
import jieba 
def cutstring(txt): 
# 分 词 


cutstr = jieba.cut(txt) 


result="_".join(cutstr) 
return result 
# 读 取 文件 


txtfileobject = open('nltest1.txt','r') 
try: 

filestr = txtfileobject.read( ) 
finally: 

txtfileobject.close( ) 
cutstr=cutstring(filestr) 
tokenstr=nltk.word_tokenize(cutstr) 
# 全 文 总 词 数 


print u" 词 总 数 


了 
print len(tokenstr) 
# 共 出 现 多 少 词 


print u" 共 出 现 词 数 


print len(set(tokenstr) ) 
# 词 汇 条 目 排序 表 


print u" 词 汇 条 目 排 序 表 


for word in sorted(set(tokenstr)): 
print word, 

print 

# 每 个 词 的 平均 使 用 次 数 














print u" 每 个 词 的 平均 使 用 次 数 

















print len(tokenstr)/len(set(tokenstr)) 
# 统 计 词 频 


fdisti=nltk.FreqDist(tokenstr) 

for key,val in sorted(fdist1.iteritems()): 
print key,val, 

print 
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mére 














print Wg 计算 机 系统 出 现 的 次 数 


print 
print u"......... 统计 出 现 最 多 的 前 


5 个 词 


fdisti=nltk.FreqDist(tokenstr) 
for key,val in sorted(fdist1.iteritems(),key=lambda x:(x[1],x[0]),reverse=True)[:5]: 
print key, val 





观察 程序 12-8.py， 该 程序 依次 执行 了 以 下 操作 : 
(1) 读 取 文件 


通过 调用 Python 的 open 函 数 来 打开 文件 ，read 函 数 来 读 取 文 件 ， 无 论 读 取 文 件 成 功 与 
否 都 关闭 文件 对 象 ， 代 码 片 断 如 下 所 乐 ; 





txtfileobject = open('nltest1.txt','r') 
try: 


filestr = txtfileobject.read( ) 
finally: 
txtfileobject.close( ) 





(2) 中 文 分 词 


首先 ， 调 用 cutstring 函 Eis AH a Oa ae aire ee 其 中 ， 每 个 词 都 用 
空格 进行 分 割 ; PA, ETX 全 属 分 别 的 分 分 词 结果 ， 调 用 NLTK 模 块 的 word_tokenize 函 数 进 
行 NLTK 方 式 的 二 次 分 词 ， "Be 入 生成 NLTK 模 块 要 求 的 中 文 分 词 格式 ， 即 : 以 中 文 词 为 元 
素 ， 组 成 词语 列表 。 代 码 片断 如 下 所 示 ; 














cutstr=cutstring(filestr) 
tokenstr=nltk.word_tokenize(cutstr) 








词 是 针对 英文 分 词 而 设计 的 ， 而 英文 分 词 相对 比较 简 
单 ， 通 常 句子 目的 英 Ny ES Oa Bae. 使 用 NLTK 完 成 中 文 分 词 ， 需 要 模 
拟 英文 分 词 的 方式 来 进行 ， 即 : 先 使 用 空格 将 中 文 词 组 分 割 形成 字符 串 后 ， 再 送 往 NLTK 


分 词 函数 做 进一步 处 理 。 
(3) 统计 词 出 现 的 次 数 


首先 ， 通 过 调用 len 函 数 ， 对 NLTK 分 a a ed 
量 ) 进行 统计 ， 然后 ， 调 用 set 函 数 将 NLTK 分 词 结果 转换 成 集合 ， 统 计 集合 中 出 现 的 词 


数 。 代 码 片 断 如 下 所 示 : 
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# 全 文 总 词 数 


print U" 词 总 数 


= 了 
print len(tokenstr) 
# 共 出 现 多 少 词 


print u" 共 出 现 词 数 


print len(set(tokenstr)) 





(4) 统计 词 频 
首先 ， NT TK GSR Hi PreqDistia 3, RENE TR SRF A 该 字典 的 键 为 


词 ， 值 为 该 词 出 现 的 次 数 ， 然 后 ， 调 用 该 词 频 对 象 的 iteritems() 返 PERSZ, EANA 
的 词 。 代 码 片 断 如 下 所 示 : 


# 统 计 词 频 





fdist1=nltk.FreqDist(tokenstr) 
for key,val in sorted(fdist1.iteritems()): 
print key,val, print u" 共 出 现 词 数 


au 
‘or 





(5) 按 词 频 大 小 分 析 中 文 记 


Foc, ERENT aS He, Ue | 
语 ) 进行 从 大 到 小 的 排序 。 下 面 的 代码 片断 演示 的 





fdisti=nltk.FreqDist(tokenstr) 
for key,val in sorted(fdist1.iteritems(),key=lambda x:(x[1],x[0]),reverse=True)[:5]: 
print key, val 





程序 12-7.py 的 运行 效果 如 下 : 





词 总 数 


: 386 共 出 现 词 数 


: 216 词 汇 条 目 排序 表 


1.84 2800 CBS Cox David IARPA SEAS ，、 





WwWvai bht . com DRXATHHE 

















不 然 





中 心 





个 词 的 


EF 均 使 























1.78703703704 


1.84 1 2800 1 CBS 1 Cox 1 David 1 IARPA 1 SEAS 2 





Tw 

13 —=4 
2 一 半 
1 一 款 
2 一 点 
1 一 项 
1 万 美元 


次 数 为 
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Tas 


mére 























5 个 词 











察 上 述 12-7.py 的 运行 结果 ， 程序 依次 输出 了 词 总 数 、 共 出 现 词 数 、 词 汇 条 目 排 序 
Ra “计算 机 系统 ”这 个 词 出 现 的 次 数 、 出 现 最 多 的 前 5 个 词 。 


2. 长 词 分 析 





WwWvai bht . com DRXATHHE 














程序 12-8.py 演 示 了 如 何 调用 NLTK 模 块 的 函数 进行 词 频 统 计 : 





#--coding:utf-8-- 
#code by myhaspl 
#12-8.py 
from __future__ import unicode_literals 
from __future__ import division 
import nltk 
import sys 
sys.path.append("../") 
import jieba 
def cutstring(txt): 
# 分 词 


cutstr = jieba.cut(txt) 


result="_".join(cutstr) 
return result 
# 读 取 文件 


txtfileobject = open('nltest2.txt','r') 
try: 

filestr = txtfileobject.read( ) 
finally: 

txtfileobject.close( ) 
cutstr=cutstring(filestr) 
tokenstr=nltk.word_tokenize(cutstr) 
fdisti=nltk.FreqDist(tokenstr) 
# 只 出 现 了 


1 次 的 低频 词 


print "---- 只 出 现 了 


1 次 的 低频 词 


for word in fdist1.hapaxes(): 
print word, 








# 找 出 文本 中 的 长 词 
print 
print "---- 文 本 中 的 长 词 


for word in [w for w in set(tokenstr) if len(w)>3]: 
print word, 
# 找 出 文本 中 出 现 了 





2 次 以 上 的 长 词 


print 
print "---- 文 本 中 出 现 了 





2 次 以 上 的 长 词 


for word in [w for w in set(tokenstr) if len(w)>3 and fdisti[w]>2]: 
print word, 
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程序 12-8.py 中 有 以 下 几 个 关键 知识 点 。 
(1) 低频 词 


NLTK 将 只 出 现 过 1 次 的 词 作为 低频 词 ， 可 通过 调用 hapaxes 函 数 分 析 低频 词 。 如 下 面 
的 代码 片断 所 示 : 


# 只 出 现 了 





LAKARAN] 


print "---- 只 出 现 了 


1 次 的 低频 词 


for word in fdist1.hapaxes(): 
print word, 





(2) 长 词 


可 将 长 度 超过 3 的 中 文 词 视 为 长 词 ， 如 下 面 的 代码 片断 所 示 ， 首 先 通过 len 函 数 找到 文 
本 中 的 长 词 ， 然 后 结合 词 频 字典 的 信 来 寻找 出 现 了 2 次 以 上 的 长 词 。 











# 找 出 文本 中 的 长 词 
print 
print "---- 文 本 中 的 长 词 





for word in [w for w in set(tokenstr) if len(w)>3]: 
print word, 








# 找 出 文本 中 出 现 了 

2 次 以 上 的 长 词 

print 

print "---- 文 本 中 出 现 了 
2 次 以 上 的 长 词 


for word in [w for w in set(tokenstr) if len(w)>3 and fdist1[w]>2]: 
print word, 





程序 12-8.py 的 输出 结果 如 下 : 


- -只 出 现 了 





1 次 的 低频 词 
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圣 哲 








| 
= 














AEA 








--- -文本 中 的 长 词 








or 
= 
a 
Ni 




















--- -文本 中 出 现 了 





2 次 以 上 的 长 词 


WwWVai bbt .cam OAA TAE 


= 持续 时 间 





3. 搭 配 词 分 析 
程序 12-9.py 演 示 了 如 何 调用 NLTK 模 块 的 函数 进行 搭配 词 分 析 : 








#--coding:utf-8-- 
#code by myhaspl 
#12-9.py 
from _ future _ import unicode_literals 
from _ future _ import division 
import nltk 
import sys 
sys.path.append("../") 
import jieba 
def cutstring(txt): 
# 分 词 


cutstr = jieba.cut(txt) 


result="_".join(cutstr) 
return result 
# 读 取 文件 


txtfileobject = open('nltest2.txt','r') 
try: 
filestr = txtfileobject.read( ) 
finally: 
txtfileobject.close( ) 
cutstr=cutstring(filestr) 
tokenstr=nltk.word_tokenize(cutstr) 
fdisti=nltk.FreqDist(tokenstr) 
bigramcolloc=nltk.collocations.BigramCollocationFinder.from_words(tokenstr) 
print "---- 出 现 最 频繁 的 前 


10% iF) 


fdisti=bigramcolloc.word_fd 

for key,val in sorted(fdist1.iteritems(),key=lambda x:(x[1],x[0]),reverse=True)[:10]: 
print key,":",val 

print "---- 只 出 现 了 


1 次 的 低频 词 


fdist1=bigramcolloc.word_fd 
for w in fdist1.hapaxes(): 
print w.encode("utf-8"),"|", 





# 找 出 文本 中 的 搭配 词 
print 
print "---- 找 出 双 连 搭配 词 


bigramwords=n1tk.bigrams(tokenstr) 

for fw,sw in set(bigramwords): 
print fw," ",sw,"|", 

print 

print "---- 双 连 搭配 词 及 词 频 
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for w,c in sorted(bigramcolloc.ngram_fd.iteritems(),key=lambda x:(x[1],x[0]),reverse=True): 


fw, Sw=w 

print fw, "n ", SW, "=>",C, "p", 
print 
trigramcolloc=nltk.collocations.TrigramCollocationFinder.from words(tokenstr) 
print "---- 三 连 搭配 词 


for fw,sw,tw in trigramcolloc.ngram_fd: 
print fw.encode("utf-8")," ",sw.encode("utf-8")," ",tw.encode("utf-8"),"|", 
print 








程序 12-9.py 中 有 以 下 几 个 关键 知识 点 。 
(1) 双 连 搭配 词 
将 两 个 经 常 在 一 起 使 用 的 词语 合并 为 一 个 词组 ， 并 称 为 双 连 搭配 词 ， 比 如 : “ 通 


过 ”“ 扫 描 ” 这 两 个 词 经 常 在 一 起 使 用 ， 可 合并 为 “通过 扫描 ”的 词组 。 可 通过 调用 bigrams 
函数 来 寻找 所 有 的 双 连 搭配 词 。 代 码 片 断 如 下 所 示 : 














bigramwords=nltk.bigrams(tokenstr) 
for fw,sw in set(bigramwords): 
print fw," ",sw,"|", 





(2) 三 连 搭 配 词 


将 三 个 经 常 在 一 起 使 用 的 词语 合并 为 一 个 词组 ， 并 称 为 三 连 搭配 词 ， 比 如 : “发 
现 ”、“ 任 何 ”、“ 异 样 ” 这 三 个 词 经 常 在 一 起 使 用 ， 可 合并 为 “发 现任 何 异样 ”的 词组 。 可 通 
过 调用 a a e a 的 from_words 函 数 来 寻找 所 有 的 三 连 
搭配 词 ， 并 统计 词 频 。 代 码 片 断 如 下 所 示 : 

















trigramcolloc=nltk.collocations.TrigramCollocationFinder .from words(tokenstr) 
for fw,sw,tw in trigramcolloc.ngram_fd: 

print fw.encode("utf-8")," ",sw.encode("utf-8")," ",tw.encode("utf-8"),"|", 
print 





(3) 词 频 


可 通过 调用 模块 nltk.collocations.BigramCollocationFinder 的 from_words 函 数 来 寻找 所 
有 的 双 连 搭配 词 ， 并 统计 词 频 。 


其 中 ， 可 通过 word_fd 方 法 返回 单个 词 的 词 频 ， 代 码 片断 如 下 所 示 : 











bigramcolloc=nltk.collocations.BigramCollocationFinder.from words(tokenstr) 
print "---- 出 现 最 频繁 的 前 


10 个 词 


fdist1=bigramcolloc.word_fd 
for key,val in sorted(fdist1.iteritems(),key=lambda x:(x[1],x[0]),reverse=True)[:10]: 
print key,":",val 





也 可 以 通过 iteritems 方 法 返回 双 连 搭配 词 的 词 频 ， 代 码 片 断 如 下 所 示 : 








bigramcolloc=nltk.collocations.BigramCollocationFinder.from words(tokenstr) 
for w,c in sorted(bigramcolloc.ngram_fd.iteritems(),key=lambda x:(x[1],x[0]), 
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reverse=True): 
fw, Sw=w 
i print fw, "n ", SW, "=>",C, "| ("y 
print 





程序 12-9.py 的 运行 结果 如 下 : 





--- -出 现 最 频繁 的 前 





: 131, 


: 99. 


: 64 在 


: 30 大 脑 


: 28 





| 神经 科学 


| 尽 可 能 











| 团队 





| 置 于 


| 繁重 


二 
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的 


| 例如 


在 


| 振荡 


活动 


| 的 





= 
= 
= 
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---- 双 连 措 配 词 及 词 频 














一 项 
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$ 
a 
iit 


ce 
EE 





观察 上 述 运行 结果 ， 程序 12-9.py 依 次 输出 了 出 现 最 频繁 的 前 10 个 词 、 只 出 现 了 1 次 的 
低频 词 、 双 连 搭配 词 、 双 连 搭配 词 及 词 频 、 三 连 搭配 词 。 











提示 12.4 节 中 有 些 代 码 并 没有 对 标点 AA pA 

标点 进行 过 滤 ， 读者 可 参考 面 的 部 分 ， 将 标点 符号 作为 停 用 词 进行 ANG ase a 
二 点 必须 要 注意 : 标点 符号 并 非 完全 没有 意义 ， 在 NLP 过 程 的 初期 并 不 一 定 要 过 TIERA 
号 ， 例 如 ， 标 点 符号 可 以 作为 词组 、 名 子 甚至 口语 文本 分 割 的 标志 等 。 


4. 词 详细 指标 分 析 


程序 12-10. py 演示 了 如 何 调用 NLTK 模 块 的 函数 进行 不同 指标 的 词 频 分 析 、 某 词汇 指 
标 分 析 、 样 本 特征 分 析 、 频 率 分 析 等 。 

















#--coding:utf-8-- 
#code by myhaspl 
#12-10.py 
from _ future _ import unicode_literals 
from _ future _ import division 
import pylab 
import nltk 
import sys 
sys.path.append(".. 7") 
pylab.mpl.rcParams['font.sans-serif']=['SimHei'] 
import jieba 
def cutstring(txt): 
# 分 词 


cutstr = jieba.cut(txt) 


result="_".join(cutstr) 
return result 
# 读 取 文件 


txtfileobject = open('test2.txt','r') 
try: 

filestr = txtfileobject.read( ) 
finally: 

txtfileobject.close( ) 
cutstr=cutstring(filestr) 
tokenstr=nltk.word_tokenize(cutstr) 
fdist=nltk.FreqDist(tokenstr) 
# 以 词 长 为 元 素 ， 计 算 不 同 词 长 的 频率 


print "---- 词 频 
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fdisti=nltk.FreqDist([len(w) for w in tokenstr]) 
for wc in fdisti.items(): 


sei print w, "=>", C, n | | Ma 
词 长 

print 

print "---- 词 长 


print fdist1.keys() 
# 词 


print 
print u"--- 词 频 


fdist2=nltk.FreqDist(tokenstr) 

for w,c in fdist2.items(): 
print w, "=>", Cc, uw | | My 

print 

print u"--- 无 意识 出 现 的 次 数 


print fdist2[u" 无 意识 


print u"--- 神 经 学 家 出 现 的 次 数 


print fdist2[u" 神 经 学 家 


# 其 他 基本 指标 

















Sample=cutstring(u" 据 悉 ， 这 辆 汽车 绰号 野兽 ， 野 兽 很 可 能 于 





2017 年 








工 月 份 美 


H 











45 任 总 统 就 职 时 使 用 。 目 前 ， 野 兽 的 详细 规格 都 属于 绝密 信息 ， 但 谍 照 显示 野兽 采用 了 凯迪 拉克 的 最 新 护 栅 和 前 灯 设 计 。 





") 
tokenstr=nltk.word_tokenize(sample) 
fdist3=nltk.FreqDist(tokenstr) 
print u"--- 美 国 出 现 的 次 数 














print fdist3[u" 美 








H 








print U"--- 样 本 总 数 


print fdist3.N() 
print u"--- 数 值 最 大 的 样本 
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print fdist3.max() 
# 频 率 分 布 表 


fdist3.tabulate() 
# 频 率 分 布 图 


fdist3.plot() 
# 前 


10 个 高 频 词 的 累积 频率 分 布 图 


fdist3.plot(10, cumulative=True) 





程序 12-10.py 中 有 以 下 几 个 关键 知识 点 。 


1) 以 词 长 作为 指标 进行 词 频 分 析 。 通 过 len 函 数 取出 词 长 ， 以 词 长 为 元 素 形成 列表 ， 
将 列表 作为 FreqDist 函 数 的 参数 ， 返 回 以 词 长 为 指标 的 词 频 字典 ， 代 码 如 下 所 示 : 





fdisti=nltk.FreqDist([len(w) for w in tokenstr]) 
for wc in fdisti.items(): 
print w, "=>",C, "| Ls 





2) 频率 分 布 。 调 用 tabulate 函 数 输出 词 频 的 分 布 情况 ， 调 用 plot 函 数 绘制 词 频 分 布 
和 累积 频率 分 布 图 。 代 码 如 下 所 示 : 


# 频 率 分 布 表 








fdist3.tabulate() 
# 频 率 分 布 图 


fdist3.plot() 
# 前 


10 个 高 频 词 的 累积 频率 分 布 图 





fdist3.plot(10, cumulative=True) 








ae; lab 绘 图 的 中 文 乱码 处 理 。 通 过 指定 pylab 字 体 的 方式 可 避免 绘图 出 现 中 文 乱 
码 。 代 码 如 下 所 示 : 





pylab.mpl.rcParams['font.sans-serif']=['SimHei'] 





程序 12-10.py 执 行 结果 如 下 : 





-- - - 词 频 


1 => 750 || 2 => 864 || 3 => 80 || 4 => 28 || 5 => 2 || 6=>1 || 
---- 词 长 


WwWvai bht .cam DRXATHHE 

















[1，2，3，4，5，6] 

















--- 词 频 

-- -要 

=> 2 || 大 脑 皮层 
=> 2 || 一 切 
=> 3 | | 无 意识 
=> 1 || mk 
=> 1 || 一 方面 
=> 1 || 通过 
=> 2 || 特性 
SSI | i | | 情绪 
=> 1 || 是 否 
=> 1 || #5 
=> 1 || 他 们 
=> 2 || 近 距 离 
=> 1 || 起 

=> 1 || 神经 学 家 
=> 1 || 前 

=> 1 || 能 够 
=> 7 

- - -无 意识 出 现 的 次 数 
3 

-- -神经 学 家 出 现 的 次 数 
-- -美国 出 现 的 次 数 
-- -样本 总 数 

49 


Wwwvaai bht .cam DHE ATHE 














- - -数值 最 大 的 样本 





凯迪 拉克 


都 


a 1 工 1 1 1 于 1 











sa 程序 12-10.py 绘 制 了 如 图 12-6 所 示 的 词 频率 分 布 图 。 


察 图 12.6， 上 面 的 曲线 为 累积 频率 分 曲线 ， 观 察 该 曲线 ，“，”、“ 墅 兽 "这 两 个 词 
其 使 用 Pad, > BPEL, © GMs RFE S10% RTH RAER A 2, 
Wes eal eT Mh “Ba — i LT 1, AO LT Ue, EPL 4 





Q 提示 。 累积 频率 (Cumulative Percentage) 是 指 ， 按 某 种 标志 对 数据 进行 分 
9 数据 个 数 称 为 频数 或 次 数 ， 各 组 频数 与 全 部 频数 之 和 的 比值 称 为 频 
为 了 统计 分 析 的 需要 ， 有 时 需要 观察 某 一 数值 以 下 或 革 一 数值 以 上 的 频率 之 
nif es 或 称 为 对 频率 的 累计 从 变量 值 小 的 一 方向 变量 值 大 的 一 HAM, BK 
DAUERN 让， 反之 为 向 下 累积 。 频 率 的 最 终 累 积 值 为 100%。 设 x1 <x? <...<xm 是 不 重复 
的 样本 值 ，m<n， 把 样本 值 小 于 等 于 某 个 样本 数据 的 频率 累加 起 来 ， 就 可 得 到 小 于 等 于 
xi 的 累积 频率 。 








“as 
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M| Figure 1 


#OO +e GET 





12-6 WMR 
程序 12-11.py 演 示 了 如 何 调用 NLTK 模 块 的 函数 对 词 级 、 包 含 词 等 情况 进行 分 析 : 





#--coding:utf-8-- 
#code by myhaspl 
#12-11.py 
from _ future _ import unicode_literals 
from _ future _ import division 
import pylab 
import nltk 
import sys 
sys.path.append("../") 
pylab.mpl.rcParams['font.sans-serif']=['SimHei'] 
import jieba 
def cutstring(txt): 
# 分 词 


WwWVai bbt .cam OAA TAE 


cutstr = jieba.cut(txt) 


result="_".join(cutstr) 
return result 
# 读 取 文 件 


txtfileobject = open('nltest2.txt','r') 
try: 

filestr = txtfileobject.read( ) 
finally: 

txtfileobject.close( ) 
cutstr=cutstring(filestr) 
tokenstr=nltk.word_tokenize(cutstr) 
fdist=nltk.FreqDist(tokenstr) 
# 以 词 频 递减 的 顺序 访问 所 有 以 


" 神 


"开头 的 词 


print "以 词 频 递减 的 顺序 访问 所 有 以 
" 神 
"开头 的 词 


mywords=[w for w in fdist.keys() if w.startswith(u" 神 


for word in mywords: 
print word,"||", 
# 以 词 频 递减 的 顺序 访问 所 有 以 


"结尾 的 词 


print 
print "以 词 频 递 减 的 顺序 访问 所 有 以 


"结尾 的 词 


mywords=[w for w in fdist.keys() if w.endswith(u" 学 


")] 

for word in mywords: 
print word, "||", 

# 以 词 频 递减 的 顺序 访问 所 有 包含 








"美国 








"的 搭配 词 
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print 
print "以 词 频 递 减 的 顺序 访问 所 有 包含 





"美国 











"的 搭配 词 


bigramwords=nltk.bigrams(tokenstr) 
mywords=[w for w in set(bigramwords) if u" 美 国 














" in w] 
for fw,sw in mywords: 
print fw," ",sw,"|", 





O | A ee 
1) 词 级。 通过 endswith 函 数 对 词 后 级 进行 分 析 。 代 人 码 如 下 所 示 : 





print "以 词 频 递 减 的 顺序 访问 所 有 以 


"结尾 的 词 


mywords=[w for w in fdist.keys() if w.endswith(u" 学 


for word in mywords: 
print word,"||", 





iw startswith Pk BOO i] AY HUET Po TRASH F tas: 





print "以 词 频 递减 的 顺序 访问 所 有 以 


Wah 


"开头 的 词 


mywords=[w for w in fdist.keys() if w.startswith(u" 神 


")] 


for word in mywords: 
print word, "||", 








2) 包含 词 。 通 过 in 对 包含 词 进行 分 析 。 代 码 如 下 所 示 : 





bigramwords=nltk.bigrams(tokenstr) 
mywords=[w for w in set(bigramwords) if u" 美 国 














" in w] 
for fw,sw in mywords: 
print fw," ",sw,"|", 
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程序 12-11.py 的 运行 结果 如 下 : 





以 词 频 递减 的 顺序 访问 所 有 以 


Wah 


"开头 的 词 


神经 科学 


"结尾 的 词 


神经 科学 


[| 大 学 


[| 光学 


| | 社会 心理 学 


| | 心理 学 





| | 美国 杜 克 大 学 











| | 以 词 频 递减 的 顺序 访问 所 有 包含 





"美国 








"的 搭配 词 





























程序 12-12.py 演 示 了 如 何 调用 NLTK 模 块 的 函数 进行 条 件 频率 分 析 : 





#--coding:utf-8-- 


WwWVai bbt. cam DEEA CEE 














#code by myhaspl 
#12-12.py 
from __future__ import unicode_literals 
from __future__ import division 
import pylab 
import nltk 
import sys 
sys.path.append("../") 
pylab.mpl.rcParams['font.sans-serif']=['SimHei'] 
import jieba 
def cutstring(txt): 
# 分 词 


cutstr = jieba.cut(txt) 

result="_".join(cutstr) 

return result 
samples=[('nltest1.txt',u' Pdi 


'), ('nltest2.txt',u' py 


'), ('nltest3.txt',u' W4% 


'), ('nltest4.txt',u' 财经 


samplewords=[] 
for (filename, categories) in samples: 
# 读 取 文 件 


txtfileobject = open(filename, 'r') 
try: 

filestr = txtfileobject.read( ) 
finally: 

txtfileobject.close( ) 
cutstr=cutstring(filestr) 
tokenstr=nltk.word_tokenize(cutstr) 
mywords=[w for w in tokenstr] 
for word in mywords: 

samplewords.append( (categories, word) ) 

# 条 件 频 率 ， 每 个 词汇 在 不 同 分 类 中 出 现 的 频率 





cfd=nltk.ConditionalFreqDist(samplewords ) 
fdist=cfd[u' 财 经 


for word in fdist 
print word 
print "--------- 流动 性 出 现 次 数 


print cfd[u' 财 经 


"] [Lu "流动 性 
print "---------- 条 件 
:分 类 


for cnd in cfd.conditions(): 





wwa bbt. cam OEE 

















Arete 

















print cnd 
print "--------------------------- 
# 频 数 最 大 的 样本 


print cfd[u' 财 经 


'] .max() 


# 条 件 频率 分 布 


print "---------- 条 件 频率 分 布 表 


cfd.tabulate(title=u' 条 件 频 率 分 布 表 
', conditions=[u' 科 技 
',U' 财 经 


ay .plot (title=u' 条 件 频率 分 布 图 
', conditions=[u' 科 技 

"7U 财经 

']) 


程序 12-12.py 中 有 以 下 几 个 关键 知识 点 。 
1) 条 件 频率 字典 构造 。 可 使 用 NLTK 模 块 的 ConditionalFreqDist 函 数 构 造 条 件 频 率 字 














此 外 ，ConditionalFreqDist 函 数 的 参数 是 一 个 列表 ， 列 表 中 的 每 个 元 素 均 为 带 类 别 标 
志 的 元 组 ， 格 式 为 : 类别， 词汇 )。 代 码 如 下 所 示 ; 





for word in mywords: 
samplewords.append( (categories,word)) 


”2) 条 件 频率 字典 访问 。 生 成 的 条 件 频率 字典 属于 二 维 结构 ， 第 一 维 是 类 别 ， 第 二 维 
是 词汇 ， 下 面 的 代码 演示 了 分 析 访 问 财经 类 文本 中 的 “流动 性 "一 词 的 频率 。 











~ 





print "--------- 流动 性 出 现 的 次 数 


print cfd[u' 财 经 
' J [u' 流 动 性 
"] 


a 7 eee 。 使 用 tabulate 函 数 绘制 条 件 频 率 分 布 表 ， 使 用 plot 函 数 绘 制 条 件 频 
2 分 ò 
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cfd.tabulate(title=u' 条 件 频 率 分 布 表 


',conditions=[u' # 4% 


"7 U "财经 


' conditions=[u' FH 


]) 
cfd. plot (title=u' 条 件 频 率 分 布 


图 














uH% 
']) 
FOF 12-12 py eh YA AMA pizt RN ce 

PE RCL ， 最 后 科 出 频 数 最 天 的 样 末 太 频率 分 布 的 情况 。 运 得 结果 如 下 

. . 体 量 

起 

超额 完成 

过 硬 

betes 流动 性 出 现 的 次 数 

条 件 

:分 类 

a 科技 

财经 

se 条 件 频率 分 布 表 

PERETE 高 级 

高 达 
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鸡尾酒 


鸣 声 





TETERE 1 1 0 1 1 工 0 6 6 122 2 2 2 财经 


0 1 2 0 0 0 2 3 3 169 4 1 0 





图 12-7 为 程序 12-12.py 输 出 的 条 件 频率 分 布 图 ， 横 轴 为 词汇 ， 纵 轴 为 词汇 数量 。 
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图 12-7 


分 析 


Web 文 档 


12.4.5 


Web 文 档 即 网 页 ， 它 是 构成 网 站 的 基本 元 素 ， 是 承载 名 种 网 站 应 用 的 平台 ，Web 文 


























wawai bbt .cam DERE ATCHE 


档 是 一 个 包含 HTML 标签 的 纯 文 本 文件 ， 它 可 以 存放 在 世界 某 个 角落 的 某 一 台 计 算 机 中 ， 
是 万 维 网 中 的 一 “页 ”， 其 格式 为 超 文本 标记 语言 〈 标 准 通用 标记 语言 的 一 个 应 用 ) ， 通 党 
Web 文 档 的 文件 扩展 名 为 .html 或 .htm) 。 








提示 HTML 是 用 来 描述 网 页 的 一 种 语言 ， 是 超 文 本 标记 语言 (Hyper Text 
Markup Language) ， 但 它 不 是 一 种 编程 语言 ， 而 是 一 种 标记 语言 (markup language) ， 
标记 语言 是 一 套 标 记 标 签 (markup tag) 。 


HTML 使 用 标记 标签 来 描述 网 页 ，HTML 标 记 标 签 通常 被 称 为 HTML 标 签 (HTML 
tag) 。HTML 标 签 是 由 尖 括 号 包围 的 关键 词组 成 的 ， 比 如 “<html>”"。HTML 标 签 通常 是 成 
对 出 现 的 ， 比 如 “<b>” 和 “</b>”， 标 签 对 中 的 第 一 个 标签 是 开始 标签 ， 第 二 个 标签 是 结束 
标签 ， 开 始 和 结束 标签 也 称 为 开放 标签 和 闭合 标签 。 比 如 下 面 这 段 网 页 : 


























<html> 
<body> 
<hi>My First Heading</h1> 
<p>My first paragraph.</p> 
</body> 
</html> 














上 述 网 页 的 HTML 标 签 意义 为 : <html> 与 </html> 之 间 的 文本 是 描述 网 页 ，<body> 与 
</body> 之 间 的 文本 是 可 见 的 页 面 内 容 ; <h1> 与 </h1> 之 间 的 文本 在 网 页 上 被 显示 为 标题 ; 
<p> 与 </p> 之 间 的 文本 在 网 页 上 被 显示 为 段落 。 


程序 12-13.py 演 示 了 如 何 调用 NLTK 模 块 的 函数 对 Web 文 档 进 行 条 件 频率 分 析 : 

















#--coding:utf-8-- 
#code by myhaspl 


from _ future _ import unicode_literals 
from _ future _ import division 
import pylab 
import nltk 
import urllib 
from bs4 import BeautifulSoup 
import sys 
sys.path.append("../") 
pylab.mpl.rcParams['font.sans-serif']=['SimHei'] 
import jieba 
def cutstring(txt): 
# 分 词 


cutstr = jieba.cut(txt) 

result="_".join(cutstr) 

return result 
urls=[(u" H 


","http://tech.163.com/16/0203/06/BESLRF50000915BD.htm1"), (u" #42 


")"http://tech.163.com/16/0202/01/BEPHEI120009405H .htm1"), (u" #4 


Ri 





","http://tech.163.com/16/0203/03/BESBB73B000915BD.htm1"), (u" #42 


","http://tech.163.com/16/0203/03/BESAGOPBO00915BD.htm1"), (u"#A 


","http://edu.163.com/16/0203/05/BESI2S7500294NE9..htm1"), (u" 教 育 
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","http://kids.163.com/16/0118/06/BDJEMJ3H00294M06 .htm1"), (u"#A 


","http://edu.163.com/16/0128/05/BED4NHBBOO294NE9 ..htm1"), (u" 教 育 


", "http://edu.163.com/16/0202/01/BEPHFQ1800294IIH.html")] 

samplewords=[] 

print wst; 

for (category, myur1l) in urls: 
htmlsrc=urllib.urlopen(myurl).read() 
htmlsrc=htmlsrc.decode('gbk') 
soup = BeautifulSoup(htmlsrc, 'html.parser') 
txtsrc=soup.find_all(id="endText" ) 
txtsoup=BeautifulSoup(repr(txtsrc[0]) ) 
txtstr=txtsoup.get_text() 
txtstr=txtstr.decode('gbk').decode("unicode-escape").encode( 'utf-8') 
cutstr=cutstring(txtstr) 
tokenstr=nltk.word_tokenize(cutstr) 
for word in tokenstr: 

samplewords.append((category,word) ) 

print Welt 

print "=>|" 

cfdist=nltk.ConditionalFreqDist(samplewords) 

# 知 识 一 词 的 频率 


print cfdist[u' 科 技 


'].freq(u' 知识 


samplews=[] 
# 在 教育 分 类 中 出 现 最 多 的 


20 个 词 


fd=cfdist[u' 教 育 


edufd20=sorted(fd.iteritems(),key=lambda x:(x[1],x[0]),reverse=True)[:20] 
for w,c in edufd20: 


print w, "=>",C, | [ae 
samplews.append(w) 
print 


# 在 科技 分 类 中 出 现 最 多 的 


20 个 词 


fd=cfdist[u' 科 技 


techfd20=sorted(fd.iteritems(),key=lambda x:(x[1],x[0]),reverse=True)[:20] 
for w,c in techfd20: 


print w, "=>",C, <| | 
samplews.append(w) 
print 


samplews=set (samplews) 
# 条 件 频 率 分 布 图 


cfdist.tabulate(title=u' 条 件 频 率 分 布 表 


', samples=samplews, conditions=[u' 科 技 
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',u' 教 育 


eee ee 

', samples=samplews, conditions=[u' f} 
',U' 教育 

']) 


程序 12-13.py 中 有 以 下 几 个 关键 知识 点 。 
C1) 解析 网 页 


Web 文 档 通 常 是 HTML 格 式 的 网 页 ， 处 理 此 类 文档 的 关键 在 于 提取 标签 中 的 内 容 ， 
面 的 代码 片段 演示 了 如 何 解析 网 页 文本 。 首 先 ， 通 六 furlhibBHeliurlopenty J webeee, | 
Jf Elrond BA CS A tH e 的 HIML 内 容 。 然 后 ， ee a 
做 进一步 处 理 ， 本 例 中 需要 提取 新 闻 的 正文 ， 观 察 新 闻 的 网 页 文本 可 发 现 ， 其 正文 通常 处 
于 jd 为 ndText 的 标签 内 。 具体 过 程 为 : 通过 调用 BeautifulSoup 模 块 的 find_all 函 数 找到 标 
签 ， 提 取 标 签 中 的 内 容 ， 通 过 BeautifulSoup EA 提取 内 容 中 残余 的 
HTML 标 记 ， 得 到 纯净 的 新 闻 正 文字 符 串 。 最 后 ， 将 新 闻 正 文字 A pial A 
NLTK 分 词 ， 以 便 进行 下 一 步 处 理 。 


























wales 





























htmlsrc=htmlsrc.decode('gb 

soup = BeautifulSoup(htmlsrc, "html.parser') 
txtsrc=soup.find_all(id="endText" ) 
txtsoup=BeautifulSoup(repr(txtsrc[0]) ) 

txtstr=txtsoup.get_text() 
txtstr=txtstr.decode('gbk').decode("unicode-escape").encode('utf-8') 
cutstr=cutstring(txtstr) 

tokenstr=nltk.word_tokenize(cutstr) 


htmlsrc=urllib. le my read() 
k') 











人 符 编码 的 问题 ， 中 文 网 页 文本 的 字符 编码 格式 不 止 
UTF-8 一 种 ， 很 多 中 文 网 页 是 2312 格 式 的 编 色 ， 通过 HTML 的 charset 属 性 可 指定 HTML 
文档 的 字符 编码 。 xf TOR IER a BE AH decode O Menco de OA TIA 


Jo 








as 








(2) 某 条 件 下 出 现 最 多 的 高 频 词 汇 


可 通过 分 析 某 条 件 下 出 现 频率 最 多 的 词汇 ， 近 似 得 到 该 条 件 的 常用 关键 词 。 下 面 的 
代码 片段 对 条 件 频 率 字 典 cfdist 中 的 教育 条 件 (对 于 本 例 而 言 ， 此 处 的 条 件 部 分 实质 上 是 
类 别 ， “A 件 下 "意味 着 * 革 类别 下 ”) 进行 排序 ， 排序 的 依据 是 值 《 即 词汇 频数 ) ， 排 序 
的 函数 是 Eython 的 sorted 函 数 ， 返 回 词 频 从 大 到 小 的 词汇 列表 ， 列 表 的 前 20 个 元 素 就 是 出 

















现 得 最 多 的 高 频 词汇 。 
# 在 教育 类 
web 文 档 中 出 现 最 多 的 
20 个 词 


fd=cfdist[u' 教 育 
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edufd20=sorted(fd.iteritems(),key=lambda x:(x[1],x[0]),reverse=True) [:20] 
for w,c in edufd20: 

print W, "=>", Gs | | ye 

samplews.append(w) 








程序 12-13.py 的 运行 结果 如 下 : 





0.00117233294256 





, => 541 || 的 

=> 356 || 

=> 238 || 在 

=> 102 || . 

=> 86 || 了 

=> 85 || 是 

=> 77 || 学 生 

=> 75 || " => 67 || " => 67 || 学 校 











=> 51 || 就 业 


=> 49 || % => 48 || 她 














=> 45 || 也 
=> 44 || 都 
=> 43 || 美国 
=> 40 || 和 
=> 40 || 有 
=> 34 | 

, => 126 || 的 
=> 121 || 

=> 59 || 是 
=> 38 || 在 
=> 19 || 了 








=> 18 || iPhone => 17 || 量子 
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=> 15 || 人 3 


aw 


=> 15 || "=> 14 || "=> 14 || 份额 
=> 13 | 

=> 12 || 世界 

=> 12 || 上 

=> 12 || 一 个 


=> 12 || Windows => 12 || 机 器 人 





=> 11 || % => 11 || 


世界 





4 
: 


毕业 生 





Windows 就 业 


iPhone ， 





美国 
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86 238 356 85 34 21 1 40 53 33 67 67 48 © 102 77 75 51 0 

















程序 12-13.p A eh 在 科技 分 类 中 的 频率 〈 此 处 的 频率 不 是 频数 ， 可 理 
解 为 “知识 vE R 别 的 文档 中 出 现 的 概率 ) 0.00117233294256; 然后 输出 在 科技 、 教 
育 类 别 中 出 现 最 多 的 20 个 高 频 词 。 最 后 ， 输 出 高 频 词 的 条 件 频 率 分 布 表 ， 并 绘制 条 件 频率 
分 布 图 〈 如 图 12-8 所 示 ) ， 观 察 图 12-8， 较 高 的 曲线 为 教育 ， 较 低 的 曲线 为 科技 ， 可 见 这 
20 个 高 频 词 属于 教育 的 频数 比 属于 科技 的 要 多 。 
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条 件 频率 分 布 图 
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图 12-8 条件 频 率 分 布 图 
12.4.6 ” Web 文档 的 朴素 贝 叶 斯 分 类 





朴素 贝 叶 斯 分 类 器 (Naive Bayes Classifier, NBC) 发 源 于 古典 数学 理论 ， 有 着 坚实 
的 数学 基础 和 稳定 的 分 类 效率 ， 同 时 ，NBC 模 型 所 需 估 计 的 参数 很 少 ， 对 缺失 数据 不 太 
敏感 ， 算 法 也 比较 简单 。 


NBC 模 型 假设 属性 之 间 相 互 独立 ， 通 过 建立 一 个 属性 模型 ， 将 相互 不 独立 的 属性 单 
独处 理 。 例 如 对 中 文 文本 进行 分 类 的 时 候 ， 可 以 建立 一 个 字典 来 处 理 一 些 词组 ， 把 一 个 词 
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| 发 现 特定 的 问题 中 存在 特殊 的 模式 属性 ， 那 么 就 单独 进行 处 








H) 自然 语言 与 其 他 分 类 识别 问题 的 不 同 点 。 
ie 


BREE ARP ANE TXERRIAK, SP Pai aL ea A 
存在 的 可 能 性 也 不 相同 。 程 序 12-14.py 演 示 了 使 用 NLTK 分 析 词 条 归属 








A WN 





在 的 频率 不 
类 别 的 可 能 





#--coding:utf-8-- 

#code by myhaspl 

#12-14.py 

from __future__ import unicode_literals 
from _ future _ import division 

import pylab 

import nltk 

import urllib 

from bs4 import BeautifulSoup 

import sys 

sys.path.append("../") 
pylab.mpl.rcParams['font.sans-serif']=['SimHei'] 
import jieba 

## 停 用 词 字典 


f_stop = open('stopwords.txt') 
try: 
f_stop_text = f_stop.read( ) 
f_stop_text=unicode(f_stop_text, 'utf-8') 
finally: 
f_stop.close( ) 
f_stop_seg_list=f_stop_text.split('\n') 
def cutstring(txt): 
# 分 词 





cutstr = jieba.cut(txt) 
result="_".join(cutstr) 
return result 
def wordfeatures(word): 
return {"cnword":word} 
urls=[(u"FHE 


","http://tech.163.com/16/0203/06/BESLRF50000915BD.htm1"), (u" #4 


set 


","http://tech.163.com/16/0202/01/BEPHEI120009405H .htm1"), (u" 科技 





","http://tech.163.com/16/0203/03/BESBB73B000915BD.htm1"), (u" #42 


","http://tech.163.com/16/0203/03/BESAGOPBO00915BD.htm1"), (u"#A 


","http://edu.163.com/16/0203/05/BESI2S7500294NE9..htm1"), (u"“A 


","http://kids.163.com/16/0118/06/BDJEMJ3H00294M06 .htm1"), (u"#A 


","http://edu.163.com/16/0128/05/BED4NHBBOO294NE9 ..htm1"), (u" 教 育 


", "http://edu.163.com/16/0202/01/BEPHFQ1800294IIH.html")] 

samplewords=[] 

print u [="; 

for (category,myurl) in urls: 
htmlsrc=urllib.urlopen(myur1).read() 
htmlsrc=htmlsrc.decode('gbk') 
soup = BeautifulSoup(htmlsrc, 'html.parser') 
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txtsrc=soup.find_all(id="endText" ) 
txtsoup=BeautifulSoup(repr(txtsrc[0]) ) 
txtstr=txtsoup.get_text() 
txtstr=txtstr.decode('gbk').decode("unicode-escape").encode('utf-8') 
cutstr=cutstring(txtstr) 
tokenstr=nltk.word_tokenize(cutstr) 
for myword in tokenstr: 
if not(myword.strip() in f_stop_seg_list) and len(myword.strip())>1: 
samplewords.append((wordfeatures(myword), category) ) 
print MeN 
# 测 试 数 据 


testurl="http://edu.163.com/16/0204/05/BEV40UHF00294NE9.htm1" 
testwords=[ ] 
htmlsrc=urllib.urlopen(testurl).read() 
htmlsrc=htmlsrc.decode('gbk') 
soup = BeautifulSoup(htmlsrc, 'html.parser') 
txtsrc=soup.find_all(id="endText" ) 
txtsoup=BeautifulSoup(repr(txtsrc[0]) ) 
txtstr=txtsoup.get_text() 
txtstr=txtstr.decode('gbk').decode("unicode-escape").encode('utf-8') 
cutstr=cutstring(txtstr) 
tokenstr=nltk.word_tokenize(cutstr) 
for myword in tokenstr: 

if not(myword.strip() in f_stop_seg_list) and len(myword.strip())>1: 

testwords.append((wordfeatures(myword), "教育 


")) : 

print "=", 
print "=>|" 
classifier=nltk.NaiveBayesClassifier.train(samplewords) 
# 大 学 所 属 的 类 别 


print u"---- 大 学 所 属 的 类 别 


print classifier.classify({"cnword":u" 大 学 


# 大 脑 所 属 的 类 别 


print u"---- 大 脑 所属 的 类 别 


print classifier.classify({"cnword":u" 大 脑 
# 测 试 数据 分 类 的 准确 率 
print nltk.classify.accuracy(classifier, testwords) 


# 特 征 分 类 最 有 效 的 


10% iF 


for wf,mostword in classifier.most_informative_features(10): 
print mostword, 

print 

# 为 显示 


utf-8, 将 
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Show_most_informative_features 代 码 进 行 修改 


#classifier.show_most_informative_features(10) 也 可 直接 调用 这 句 ， 但 是 


utf-8 显 示 有 问题 


cpdist = classifier. feature_probdist 
print('Most Informative Features' ) 
for (fname, fval) in classifier.most_informative_features(10): 
def labelprob(1): 
return cpdist[1, fname].prob(fval) 
labels = sorted([1 for 1 in classifier._labels 
if fval in cpdist[1, fname].samples()], 
key=labelprob) 
if len(labels) == 1: 
continue 
10 = labels[0] 
11 = labels[-1] 
if cpdist[10, vaiels prob(fval) == 0: 
ratio = 'I 
else: 
ratio = '%8.1f' % (cpdist[11, fname].prob(fval) / 
cpdist[10, fname].prob(fval) ) 
print fnamet+"="+fval, 
print(('%6s : %-6s = %s : 1.0' % (("%s" % 11)[:6], ("%s" % 10)[:6], ratio))) 





程序 12-14.py 中 有 以 下 几 个 关键 知识 点 。 


1) 去 除 Web 文 档 中 的 停 用 词 。 在 处 理 自然 语言 数据 (或 文本 ) 之 前 或 之 后 有 时 需 
自动 过 滤 掉 某 些 字 或 词 ， 这 些 字 或 词 称 为 Stop Words 〈 停 用 词 ) ， HT ates 
符 、 数 字 、 羧 学 字符 、 标 点 符号 及 使 用 贫农 将 高 的 单 汉字 等 。 


下 面 的 代码 片段 通过 word -tokenize ANETK 7 Maa, WAR, WR AEA 
ee ee 不 将 其 加 入 最 终 分 词 特 征 列 家 (该 列表 是 进一步 分 析 文 
村 1 





























tokenstr=nltk. word_tokenize (cutstr) 
for myword in tokenstr: 
if not(myword.strip() in f_stop_seg_list) and len(myword.strip())>1: 
samplewords.append((wordfeatures(myword), category) ) 
print "=", 














2) 构造 朴素 贝 叶 斯 分 Rit 通过 nltk.NaiveBayesClassifier 的 train 方 法 ， 将 文本 特征 
作为 参数 ， 构 造 朴 素 贝 叶 斯 分 a 代码 如 下 所 示 : 




















classifier=nltk.NaiveBayesClassifier.train(samplewords) 











aoe 于 茶 类 别 的 可 能 性 。 下 面 的 代码 演示 了 如 何 计算 “ 大 脑 ” 一 词 最 可 能 归属 





print u"---- 大 脑 所 属 的 类 别 


print classifier.classify({"cnword":u" Ahi 


H 








wawai bbt. can DEE ATCHHE 























4) 对 分 类 最 有 贡献 的 词汇 。most_informative_features 函 数 将 返回 对 分 类 最 有 效 的 词 
汇 ， 参 数 是 词汇 数量 。 代 码 如 下 所 示 ; 





for wf,mostword in classifier.most_informative_features(10): 
print mostword, 





、 此 乡 仆 ， 还 可 调用 show_most informative_features 函 数 输出 对 分 类 有 明显 作用 的 词汇 具 


4 Am. 
D 测试 分 类 的 准确 率 。 


# 测 试 数据 分 类 的 准确 率 





print nltk.classify.accuracy(classifier, testwords) 

















6) 词汇 特征 分 析 。NLITK 的 朴素 贝 叶 斯 分 类 器 对 特征 项 的 要 求 是 ， 每 个 特征 项 〈 在 

本 例 中 为 每 个 词汇 ) 为 一 个 字典 字 时 元 素 的 键 是 特征 名 称 ， 孚 哄 元 示 的 值 是 特征 值 ， 某 

AFAR RATAR MERER TUAE GERENT MEEA 
字典 。 ZN: 








def wordfeatures(word): 
return {"cnword":word} 








程序 12-14.py 的 运行 结果 如 下 : 











- -大 脑 所 属 的 类 别 


Beas 科技 


0.977346278317 世 界 


公司 
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Wg 
mE 
= 
= 


技术 


Most Informative Features 
cnword= 世 界 


科技 
; 教育 


= 20.6 : 1.0 
Cnword= 公 司 


科技 
; 教育 


= 12.4 : 1.0 
cnword= 事 先 





= 5.8 : 1.0 
cnword= 游 戏 


科技 


cnword= 和 领域 
科技 


: 教育 


cnwo rd= 采 用 
科技 


; 教育 


wana bbt . cam 











WEA 


mére 

















cnword= 学 科 


科技 


科技 





jf 
脑 ” 最 有 可 能 属于 科技 类 别 ， 然 后 输出 数据 分 类 的 准确 率 为 0.977346278317， 并 输出 


观察 上 述 的 运行 结果 ， 程 序 12-14. yo 分 析 “ 大 学 ?最 有 可 能 属于 教育 类 别 ， 而 “大 























和 


pa 
BUON L keweh fE I Eai T NE 比如 ”观察 输出 结果 的 最 后 
，*“ 技 术 * 一 词 左 科技 中 出 现 的 频率 是 在 教育 fi 


例 ， 
中 出 现 频率 的 4. 
程序 12-15.py 演 示 了 如 何 使 用 NLTK 对 不 同 词 及 词 长 归属 类 别 可 能 性 的 分 析 ; 











#--coding:utf-8-- 
#code by myhaspl 


from __future__ import unicode_literals 
from __future__ import division 

import pylab 

import nltk 

import urllib 

from bs4 import BeautifulSoup 

import random 

import sys 

sys.path.append("../") 
pylab.mpl.rcParams['font.sans-serif']=['SimHei'] 
import jieba 

# 停 用 词 字典 


f_stop = open('stopwords.txt') 
try: 


f_stop_text = f_stop.read( ) 

f_stop_text=unicode(f_stop_text, 'utf-8') 
finally: 

f_stop.close( ) 
f_stop_seg_list=f_stop_text.split('\n') 
def cutstring(txt): 

# 分 词 





cutstr = jieba.cut(txt) 
result="_".join(cutstr) 
return result 
def wordfeatures(word): 
return {"cnword":word, "wcnlen":len(word) } 
urls=[(u" Hs 
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","http://tech.163.com/16/0203/06/BESLRF50000915BD.htm1"), (u"#H 


XE 


","http://tech.163.com/16/0202/01/BEPHEI120009405H.htm1"), (u" #4 


se 





R 


","http://tech.163.com/16/0203/03/BESBB73B000915BD.htm1"), (u" #4 


","http://tech.163.com/16/0203/03/BESAGOPBO00915BD.htm1"), (u"#A 


","http://edu.163.com/16/0203/05/BESI2S7500294NE9..htm1"), (u" 教 育 


","http://kids.163.com/16/0118/06/BDJEMJ3H00294M06 .htm1"), (u" 教 育 


", "http://edu.163.com/16/0128/05/BED4NHBBO0294NE9.html"), (u" 教 育 


", "http://edu.163.com/16/0202/01/BEPHFQ1800294IIH.html")] 
samplewords=[] 
print n |="; 
for (category, myur1l) in urls: 
htmlsrc=urllib.urlopen(myur1).read() 
htmlsrc=htmlsrc.decode('gbk') 
soup = BeautifulSoup(htmlsrc, 'html.parser') 
txtsrc=soup.find_all(id="endText" ) 
txtsoup=BeautifulSoup(repr(txtsrc[0]) ) 
txtstr=txtsoup.get_text() 
txtstr=txtstr.decode('gbk').decode("unicode-escape").encode('utf-8') 
cutstr=cutstring(txtstr) 
tokenstr=nltk.word_tokenize(cutstr) 
for myword in tokenstr: 
if not(myword.strip() in f_stop_seg_list) and len(myword.strip())>1: 
samplewords.append((myword, category) ) 
print wey 
# 通 过 





apply_features 方 法 返回 链表 ， 不 在 内 存 中 存储 所 有 的 特征 集 ， 以 节约 内 存 














samplelen=len(samplewords) 
trlen=int(samplelen*2/3) # 训 练 样本 的 长 度 


random. shuffle(samplewords) 
traintxt=nltk.classify.apply_features(wordfeatures, samplewords[:trlen]) 
testtxt=nltk.classify.apply_features(wordfeatures, samplewords[trlen:]) 
print "=>|" 

classifier=nltk.NaiveBayesClassifier.train(traintxt) 

# 大 学 所 属 的 类 别 


print u"---- 大 学 所 属 的 类 别 


print classifier.classify({"cnword":u" 大 学 


", "wcnlen":len(u" 大 学 


# 大 脑 所 属 的 类 别 


print u"---- 大 脑 所属 的 类 别 














wawai bbt .cam DEE ATCHHE 























print classifier.classify({"cnword":u" Ahi 


", "wcnlen":len(u" 大 脑 


# 测 试 数据 分 类 的 准确 率 


print nltk.classify.accuracy(classifier, testtxt) 
# 特 征 分 类 最 有 效 的 


10 个 特征 


for wf,mostword in classifier.most_informative_features(10): 
print mostword, 

print 

# 为 显示 


utf-8, 将 


show_most_informative_features 代 码 进行 修改 











#classifier.show most_informative_features(10) # 也 可 直接 调用 这 句 ， 但 是 








utf-8 显 示 有 问题 


cpdist = classifier. feature_probdist 
print('Most Informative Features ' ) 
for (fname, fval) in classifier.most_informative_features(10): 
def labelprob(1): 
return cpdist[1, fname].prob(fval) 
labels = sorted([1 for 1 in classifier._labels 
if fval in cpdist[1, fname].samples()], 
key=labelprob) 
if len(labels) == 1: 
continue 
10 = labels[0] 
11 = labels[-1 
if cpdist[10, fname].prob(fval) == 0: 
ratio = 'INF' 
else: 
ratio = '%8.1f' % (cpdist[11, fname].prob(fval)/ 
cpdist[10, fname].prob(fval) ) 
print fname, 
print et 
print fval, 
print(('%6s : %-6s = %s : 1.0' % (("%s" % 11)[:6], ("%s" % 10)[:6], ratio))) 





程序 12-15.py 中 有 以 下 几 个 关键 知识 点 。 
1) 词汇 特征 分 析 。 以 某 词汇 的 内 容 和 长 度 作为 该 词汇 的 特征 项 ， 代 码 如 下 所 示 : 





def wordfeatures(word): 
return {"cnword":word, "wcnlen":len(word) } 














2) 不 在 内 存 中 存储 文本 的 所 有 特征 项 集 ， 以 节约 内 存 。 通 通过 app _features 方 法 ， 创 
哇 文 本 特征 项 集 的 列表 ， 可 不 在 内 存 中 存储 所 有 特征 项 集 ， 当 特征 项 eae 这 种 
方法 能 节约 内 存 。 代 码 如 下 所 示 : 
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traintxt=nltk.classify.apply_features(wordfeatures, samplewords[:trlen]) 
testtxt=nltk.classify.apply_features(wordfeatures, samplewords[trlen:]) 





程序 12-15.py 的 运行 结果 如 下 : 








| 
---- 大 学 所 属 的 类 别 





--- -大脑 所 属 的 类 别 


----- 科技 


0.863354037267 
8 世界 











h 
ii 
TA 
E 


事先 


Most Informative Features 
wenlen = 8 科技 


: 教育 


cnword = 世界 


= 11.8 : 1.0 
cnword = 公司 


; 教育 


= 10.2 : 1.0 
wenlen = 7 科技 
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: 教育 


= 5.6 : 1.0 
cnword = 信息 


; 教育 


= 5.5 í 1.0 
cnword = 领域 


科技 
: 教育 
= 5.5 1.0 
wenlen = 6 科技 
: 教育 


= 4.8 : 1.0 
cnword = 学 科 


; 教育 


= 3.9 : 1.0 
cnword = 里 面 








科技 
: 教育 
= 3:9 2 1.0 
cnword = 事先 
科技 
: 教育 
= 3.9 1.0 











、 观察 上 述 运行 结 末 ， 程 序 12- 人 hae? RAT ABI 
脑 ” 最 有 可 能 属于 科技 类 别 ; 然后 输 








有 效 的 10 个 特征 ， 用 前 3 个 特征 8、* 世 界 ”"、* 公 司 ” 为 例 进 行 剖 析 可 以 看 出 ， 长 








界 ”、 eine a 效 的 前 3 个 特征 ; pce WHILE AR AK 
oe SIRE 现 


3.9 倍 。 























程序 12-16.p y 演 示 了 如 何 使 用 NLTK 的 不 同 词 归属 类 别 可 能 性 的 分 析 ， 与 12-14.py 的 


不 同 之 处 在 于 : Pek eM ROE Baad eS 出 现 。 
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#--coding:utf-8-- 
#code by myhaspl 
#12-16.py 
from __future__ import unicode_literals 
from __future__ import division 
import pylab 
import nltk 
import urllib 
from bs4 import BeautifulSoup 
import random 
import sys 
sys.path.append("../") 
pylab.mpl.rcParams['font.sans-serif']=['SimHei'] 
import jieba 
def cutstring(txt): 
# 分 词 


cutstr = jieba.cut(txt) 
result="_".join(cutstr) 
return result 
def txtfeatures(allwords, tokenw, stopseg): 
features={} 
for myword in set(allwords): 
if not(myword.strip() in stopseg) and len(myword.strip())>1: 
features["cnword-"+myword]=(myword in set(tokenw) ) 
print wey 
return features 
# 停 用 词 字典 


f_stop = open('stopwords.txt') 
try: 
f_stop_text = f_stop.read( ) 
f_stop_text=unicode(f_stop_text, 'utf-8') 
finally: 
f_stop.close( ) 
f_stop_seg_list=f_stop_text.split('\n') 
urls=[(u" fH 





")"http://tech.163.com/16/0203/06/BESLRF50000915BD. html"), (u" #4 


set 


","http://tech.163.com/16/0202/01/BEPHEI120009405H .htm1"), (u" #42 





","http://tech.163.com/16/0203/03/BESBB73B000915BD.htm1"), (u" #4 


set 


","http://tech.163.com/16/0203/03/BESAGOPBO00915BD.htm1"), (U" 4A 


","http://edu.163.com/16/0203/05/BESI2S7500294NE9.html"), (u"#A 


","http://kids .163.com/16/0118/06/BDJEMJ3H00294M06 .htm1"), (u"#A 


" "http://edu.163.com/16/0128/05/BED4NHBBO0294NE9.html"),(u" 教 育 


", "http://edu.163.com/16/0202/01/BEPHFQ1800294IIH.html")] 
samplewords=[] 


allw=[] 
tokendocstr=[] 
print "|=", 


for (category,myurl) in urls: 
htmlsrc=urllib.urlopen(myur1).read() 
htmlsrc=htmlsrc.decode('gbk') 
soup = BeautifulSoup(htmlsrc, 'html.parser') 
txtsrc=soup.find_all(id="endText" ) 
txtsoup=BeautifulSoup(repr(txtsrc[0]) ) 
txtstr=txtsoup.get_text() 
txtstr=txtstr.decode( 'gbk').decode("unicode-escape").encode( 'utf-8') 
cutstr=cutstring(txtstr) 
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tokendocstr.append(nltk.word_tokenize(cutstr) ) 
for docstr in tokendocstr: 
for w in docstr: 
allw.append(w) 
allw=set (allw) 
samplefeatures=[] 
i=0 
for docstr in tokendocstr: 
docfeature=txtfeatures(allw,docstr,f_stop_seg_list) 
samplefeatures .append((docfeature,urls[i][0])) 
i=i+1 
samplelen=len(samplefeatures) 
trlen=int(samplelen*2/3 )# 训 练 样本 长 度 


random.shuffle(samplefeatures) 
traintxt=samplefeatures[:trlen] 
testtxt=samplefeatures[trlen: ] 

print "=>|" 
classifier=nltk.NaiveBayesClassifier.train(traintxt) 
# 测 试 数据 分 类 准确 率 


print nltk.classify.accuracy(classifier, testtxt) 
classifier .show_most_informative_features(15) 





观察 程序 12-16.py， 对 文本 进行 特征 分 析 时 ， 其 文本 特征 项 由 非 停 用 词 特征 组 成 ， 每 
个 非 停 用 词 的 特征 计算 方式 为 ， 特 征 名 称 为 非 停 用 词 内 容 ， 特 征 值 为 True (该 非 停 用 词 在 
该 文本 中 出 现 ) 或 False (该 非 停 用 词 未 在 该 文本 中 出 现 ) 。 代 码 如 下 所 示 : 








def txtfeatures(allwords, tokenw, stopseg): 
features={} 
for myword in set(allwords): 
if not(myword.strip() in stopseg) and len(myword.strip())>1: 
features["cnword-"+myword]=(myword in set(tokenw) ) 
print Wem 
return features 














程序 12-16.py 首 先 输出 分 类 准确 率 为 0.666666666667; 然后 输出 对 分 类 最 有 效 的 前 15 
个 特征 。 程 序 12-16.py 的 运行 结果 如 下 : 








a = = => 

0.666666666667 

Most Informative Features 
cnword- 国 外 














= False 科技 


= 2.2 : 1.0 
cnword -一 年 


= False 科技 


cnword -而 所 


= False 科技 
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: 教育 





= 2.2 : 1.0 
cnword -确实 


False 科技 


2. 网 页 分 类 


程序 12-17.py 演 示 了 如 何 使 用 NLTK 对 未 知 网 页 进行 朴素 贝 叶 





#-- 
#CO 
#12 


coding: utf-8-- 
de by myhaspl 
-17.py 


from __future__ import unicode_literals 
from __future__ import division 


imp 
imp 
imp 


ort pylab 
ort nltk 
ort urllib 


from bs4 import BeautifulSoup 


imp 
sys 
pyl 
imp 
def 


def 


ort sys 

.path.append("../") 
ab.mpl.rcParams['font.sans-serif']=['SimHei'] 
ort jieba 

cutstring(txt): 

# 分 词 


cutstr = jieba.cut(txt) 
result="_".join(cutstr) 

return result 
txtfeatures(allwords, tokenw, stopseg): 
features={} 

for myword in set(allwords): 


if not(myword.strip() in stopseg) and len(myword.strip())>1: 


features["cnword-"+myword]=(myword in set(tokenw) ) 
return features 








HE 


目 词 字典 











f_s 
try 


top = open('stopwords.txt') 
“f_stop_text = f_stop.read( ) 
f_stop_text=unicode(f_stop_text, 'utf-8') 


finally: 


f_stop.close( ) 


f_stop_seg_list=f_stop_text.split('\n') 





urls=[(u" 科 技 


", "http://tech.163.com/16/0203/06/BESLRF50000915BD.html"),(u" 科 i 


", "http://tech.163.com/16/0202/01/BEPHEI120009405H.html"),(u" 科 技 


","http://tech.163.com/16/0203/03/BESBB73B000915BD.htm1"), (u" #4 


Ri 





RE 


","http://tech.163.com/16/0203/03/BESAGOPB0O00915BD.htm1"), (u"#A 


","http://edu.163.com/16/0203/05/BESI2S7500294NE9.html"), (u"#A 





wawai bbt. can DEE ATCHHE 
































ir 


分 


类 


","http://kids.163.com/16/0118/06/BDJEMJ3H00294M06 ..htm1"), (u"#A 


","http://edu.163.com/16/0128/05/BED4NHBBOO294NE9 .htm1"), (u" 教 育 


", "http://edu.163.com/16/0202/01/BEPHFQ1800294IIH.html")] 

samplewords=[] 

allw=[] 

tokendocstr=[] 

print n ="; 

for (category, myur1l) in urls: 
htmlsrc=urllib.urlopen(myur1).read() 
htmlsrc=htmlsrc.decode('gbk') 
soup = BeautifulSoup(htmlsrc, 'html.parser') 
txtsrc=soup.find_all(id="endText" ) 
txtsoup=BeautifulSoup(repr(txtsrc[0]) ) 
txtstr=txtsoup.get_text() 
txtstr=txtstr.decode('gbk').decode("unicode-escape").encode('utf-8') 
cutstr=cutstring(txtstr) 
tokendocstr.append(nltk.word_tokenize(cutstr) ) 
print Ee 

for docstr in tokendocstr: 
for w in docstr: 

allw.append(w) 

allw=set (allw) 

samplefeatures=[] 

i=0 

for docstr in tokendocstr: 
docfeature=txtfeatures(allw,docstr,f_stop_seg_list) 
samplefeatures.append((docfeature, urls[i][0])) 
i=i+1 

traintxt=samplefeatures 

print "=> |" 

classifier=nltk.NaiveBayesClassifier.train(traintxt) 

# 新 的 网 页 


testmyurl="http://tech.163.com/16/0207/09/BF7AR5D4000915BD.htm1" 
testhtmlsrc=urllib.urlopen(testmyurl).read() 
testhtmlsrc=testhtmlsrc.decode( 'gbk' ) 

soup = BeautifulSoup(testhtmlsrc, 'html.parser') 
testtxtsrc=soup.find_all(id="endText" ) 
testtxtsoup=BeautifulSoup(repr(testtxtsrc[0])) 
testtxtstr=testtxtsoup.get_text() 

testtxtstr=testtxtstr.decode( 'gbk').decode("unicode-escape").encode( 'utf-8') 
testcutstr=cutstring(testtxtstr) 
testtokendocstr=nltk.word_tokenize(testcutstr) 
testdocfeature=txtfeatures(allw, testtokendocstr, f_stop_seg_list) 
# 测 试 数 据 分 类 


print classifier.classify(testdocfeature) 








程序 12-17.py 中 有 以 下 关键 知识 点 。 


1) 文本 特征 分 析 。 对 文本 特征 的 分 析 首 先 从 词汇 特征 入 手 ， 在 去 除非 停 用 词 后 ， 余 
下 的 词汇 对 文本 特征 的 提取 均 有 意义 ， 每 个 非 停 用 词 的 特征 名 舟 EF Hi 特 
征 值 为 True《〈 该 非 停 用 词 在 该 文本 中 出 现 ) 或 False〈 该 非 停 用 用 词 未 企 该 文本 中 Hy Bh 








def txtfeatures(allwords, tokenw, stopseg): 
features={} 
for myword in set(allwords): 
if not(myword.strip() in stopseg) and len(myword.strip())>1: 
features["cnword-"+myword]=(myword in set(tokenw) ) 
return features 








2) 分 类 结果 。 调 用 分 类 器 对 象 classifier 的 classify 方 法 对 未 知 样本 数据 进行 分 类 
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print classifier.classify(testdocfeature) 








程序 12-17.py 的 运行 结果 如 下 : 











观察 12-17.py 的 运行 结果 可 以 得 知 ， 链 接 
http://tech.163.com/16/0207/09/BF7AR5D400091 


5BD.html 指 癌 的 Web 文 档 为 科技 类 列 ， 在 浏览 器 中 打开 该 页 面 ， 标 题 为 “伦敦 希望 谷 
歌 能 将 无 人 驾驶 汽车 测试 带 进 英国 ”>， 该 文档 确实 属于 科技 类 别 ， 分 类 准确 无 误 。 


12.4.7 语法 结构 分 析 








言 学 的 一 个 分 支 ， De i 词 的 曲折 变化 或 表示 相 
TAAI EFE KAROT PREE, 包含 词 的 构 词 、 构 形 的 规则 和 组 词 成 句 的 
A 


程序 12-18.py 演 示 了 如 何 使 用 NLTK 识 别名 词 短 语 及 语法 树 分 析 : 





#--coding:utf-8-- 
#code by myhaspl 


from __future__ import unicode_literals 
from _ future _ import division 
import pylab 
import nltk 
import sys 
sys.path.append("../") 
pylab.mpl.rcParams['font.sans-serif']=['SimHei'] 
from jieba import posseg 
def cutstrpos(txt): 
# 分 词 


+ 词性 


cutstr = posseg.cut(txt) 
result="" 
for word, flag in cutstr: 
result+=word+"/"+flag+' ' 
return result 
sentencestr=[ ] 
txtstr=""" 据 美国 华盛顿 自由 灯塔 网 站 


























2 月 








17 日 报道 ， 政 府 问 责 局 





























16 日 发 布 的 这 份 报告 称 ， 美 国 导弹 防御 局 继续 将 大 笔 资金 用 于 未 被 证 明 能 够 应 对 来 自 伊朗 或 朝鲜 的 弹道 导弹 袭击 的 技术 。 



































# 生 成 





nJtk 格 式 的 词性 单词 集 
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posstr=cutstrpos(txtstr) 
strtag=[nltk.tag.str2tuple(word) for word in posstr.split()] 
# 句 子 分 割 


sentstr=[] 
for wtag in strtag: 
if wtag[0].strip() in [" 


mow 
roe 


"ony 
ro 


"n ong 
rane 


"on, 
ro 


“J 
sentencestr .append(sentstr) 
sentstr=[] 
else : 
if wtag[1]!="X": 
sentstr.append((wtag[0].strip(),wtag[1]) ) 
# 输 出 分 割 后 的 句子 


for wordstr in sentencestr: 
print 
for word in wordstr: 
print word[0],"/",word[1], 
# 名 词 短语 识别 


grammar=r""" 

NP: {(<A>|<R>|<MQ>) *<N>+<K>*} 

NP: {(<A>|<R>|<MQ>) *<NS>+<K>*} 
NP: {<M>+} 

nun 

cp=nltk.RegexpParser (grammar ) 
resulti=cp.parse(sentencestr [0] ) 
result1.draw() 
result2=cp.parse(sentencestr[1] ) 
result2.draw() 








程序 12-18.py 中 有 以 下 关键 知识 点 。 
(1) 生成 NLTK 格 式 的 词性 单词 集 


首先 ， 通 过 jieba 中 文 分 词组 件 分 词 并 标注 词性 ， 分 词 弓 ARA NELAR ENNE? 
词性 2../… 词 汇 ny 词性 nm" 的 字符 串 ， 每 个 词汇 之 间 用 空格 进行 分 隔 ; 然后 ， 调 用 nltk.tag 的 
str2tuple 函 数 生 成 NLTK 格 式 的 词性 单词 集 。 











posstr=cutstrpos(txtstr) 
strtag=[nltk.tag.str2tuple(word) for word in posstr.split()] 





(2) 句子 分 割 并 去 除 标点 


在 文本 字符 此 中 在 找 “，”、“。 “等 常用 的 中 文 标点 符号 将 文本 分 割 成 句子 ， 此 
外 ， 将 词性 是 <X” 类 别 这 个 词性 类 别 通常 为 标点 ) 的 词 删除 。 
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for wtag in strtag: 
if wtag[0].strip() in [" 


sentencestr.append(sentstr) 
sentstr=[] 
else : 
if wtag[1]!="X 
sentstr. ane ia strip(),wtag[1])) 


Q.. 示 ”jieba 中 文 分 词 采 


它 是 非 语素 字 ， “CES 只 是 一 个 符号 
(3) 名 词 短语 识别 


使 用 NLTK 识 别 语法 结构 ， 最 好 的 方式 是 指定 某 语法 结构 的 正则 表达 式 。 为 简单 起 
见 ，12-18.py 根 据 本 例 的 实际 二 况 ， 将 党 用 的 名 询 完 语 格式 定义 为 “形容 训 / 代 放 数 量词 
14 名词 LPL) 若干 + 后 级 "或 日 期 "的 格式 ， 





Pu 
SH 


和 ictclas 兼 容 的 标记 法 。 某 词 的 词性 “X" 表 示 








oe 
the 
z 
a 


























grammar=r""" 

NP: { (<A> | <R> | <MQ> ) *<N>+<K>*} 
NP: { (<A> | <R> | <MQ> ) *<NS>+<K>*} 
NP: {<M>+} 

nan 

















Q 提示 。 A 表示 形容 词 ，R 表 示 代 词 ，MQ 表 示 数 量词 ，M 表 示 日 期 词 ，K 表 示 
后 级 。 具 体 请 参 E o 


(4) 解析 语法 结构 ， 并 绘制 语法 结构 图 


首先 通过 pogophan a 结构 解析 器 ， 然 后 ， 通 过 解析 器 对 象 的 parse 方 法 解 
析 语 法 结构 ， 并 通过 draw 方 法 绘图 











cp=nltk.RegexpParser (grammar ) 
resulti=cp.parse(sentencestr[0]) 
resulti.draw()""" 











程序 12-18.py 运 行 后 ， 首 先 输出 句子 分 制 结果 ， 如 下 所 示 。 然 后 输出 语法 结构 图 ， 如 
图 12-9 所 示 。 





据 
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/ A 人 灯塔 


/ N 网 站 


JN2/7M 4H 


/M17/MH 





/ N 问 责 


pani 


/N16/MH 
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ii NP NP NP UE 


Æ 
大 





FINS Ekis 日 由 人 SN 网 站 N 2M HM 1M HM 
图 12-9 ”语法 结构 图 


观察 图 12-9 所 示 的 语法 结构 图 ， 可 看 出 程序 12-18.py 识 别 出 名 词 短 i Sm 
国 华盛顿 >) ， 并 将 它们 单独 纪 会 制 在 树 的 第 三 层 。 此 外 ， 树 的 第 BES, Rat, 第 二 
层 是 该 句 的 语法 结构 : P 表 示 介词 ，NP 表 示 名 铅 短 庄 ，V 表 示 动 词 。 


























12.4.8 Web 文档 聚 类 








文档 聚 类 (Text Clustering) 主要 是 依据 著名 的 聚 同类 文档 的 相似 度 较 大 ， 
而 不 同类 文档 的 相似 度 较 小 。 作 为 一 种 无 监督 的 机 器 学 习 方 聚 类 由 于 不 需要 训练 过 
程 ， 以 及 个 需要 预先 对 文档 进行 手工 标注 关 列 ， 因此 具有 一 hl Se EER EL ab TE A 


理 能 力 ， 已 经 成 为 对 文本 信息 进行 有 效 地 组 织 、 摘 要 和 导航 的 一 种 重要 手段 。 








1. 重 点 词 聚 类 
FFF 12-19.pyit 示 了 如 何 使 用 NLTK 通 过 电影 评论 对 电影 进行 聚 类 。 对 于 评论 而 言 ， 
重点 词 一 般 是 情感 类 THEME KPH ELE 形容 词 、 语 气 词 及 叹 词 。 








#--coding:utf-8-- 
#code by myhaspl 
#12-19.py 
from _ future _ import unicode literals 
from _ future _ import division 
import pylab 
import nltk 
import urllib 
import numpy 
import re 
import sys 
sys.path.append("../") 
pylab.mpl.rcParams['font.sans-serif']=['SimHei'] 
from jieba import posseg 
def cutstrpos(txt): 
# 分 词 


+ 词性 


cutstr = posseg.cut(txt) 
result="" 
for word, flag in cutstr: 
result+=word+"/"+flagt+' ' 
return result 
def inittxtw(allwords): 
txtwords={} 
for w in allwords: 
txtwords[w]=0 
return txtwords 
def txtfeatures(allwdt, tokenw): 
# 词 频 特 征 提 取 
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txtfd=nltk.FreqDist(tokenw) 
for key,val in sorted(txtfd.iteritems()) 
allwdt [key]=val 
return allwdt.values() 
# 根 据 电 影评 论 将 电影 聚 类 








urls=[(u" 功 夫 熊 猫 


3","http://ent.163.com/16/0129/00/BEF5L97PO0034R77.html"),(u" 唐 人 街 探 案 


","http://ent .163.com/15/1230/15/BC3GSVQ700034R77 .html" )，(Uu" 恶 棍 天 使 


","http://ent .163.com/15/1224/07/BBJ60V1H00034R77 .htm1" )，(U" 老 炮 儿 


","http://ent .163.com/15/1224/00/BBIED1QL00034R77 .htm1" )，(UuU" 寻 龙 诀 


","http://ent .163.com/15/1218/03/BB3A312B00034R77 .htm]1" )，(U" 万 万 没 想到 


","http://ent .163.com/15/1218/03/BB3ACSP700034R77.htm1"), (u" 星球 大 战 


7","http://ent .163.com/15/1217/15/BB21INTGO0034R77 .htmJ" ),(u" 饥 饿 游戏 


3 CP) 





","http://ent .163.com/15/1120/07/B8RKKR9CO00034R77 . html"), (u" Jews 
","http://ent .163.com/15/0930/01/B4NN919N00034R77 .htm1" )，(Uu" 超 能 查 派 
","http://ent .163.com/15/0508/06/AP2T6CP400034R77 .htm1" )，(U" 我 是 路 人 甲 
","http://ent.163.com/15/0702/17/ATHL56DT00034R77 .htm1" )，(U" 港 回 
","http://ent.163.com/15/0925/05/B4BA6IJ600034R77 .htm1")，(uU"9007: 幽灵 党 
","http://ent.163.com/15/1113/08/B89PJSGE00034R77 .html" )，(u" 小 黄 人 大 眼 萌 


","http://ent.163.com/15/0913/07/B3CI689C00034R77 .htm1")] 
allw=[] 
tokendocstr=[] 
i=0 
errorfilm=[] 
for (film,myurl) in urls: 
print WA eR ER SERRE ARREARS « 


"+film+"》 核 心 词 


KKKKKKKKKKK KKK KR KKK KEKE 


htmlsrc=urllib.urlopen(myur1).read() 
htmlsrc=htmlsrc.decode('gbk') 
pattern=re.compile(r'((class="end-text">)|(<br /></p><p>))(.*<style>.*--></p>)*(.+?) (</p> 
</div>|<div id=)') 
match = pattern.findall(repr(htmlsrc) ) 
matchstr="" 
if match: 
mstr=match[0][4].encode('utf-8').decode("unicode-escape" ) 
matchstrt+=mstr 
else: 
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print film, "无 法 取得 评论 


errorfilm.append(i) 
i+=1 
txtstr=matchstr.replace("</p>","").replace("<p>","").replace("<span>","").replace(" 
</span>","").replace(r'<b>','').replace(r'</b>','') 
# 生 





nltk 格 式 的 词性 单词 和 





sy 





posstr=cutstrpos(txtstr) 
strtag=[nltk.tag.str2tuple(word) for word in posstr.split()] 
cutstr="" 
for word,tag in strtag: 
# 只 处 理 名 词 、 形 容 词 、 语 气 词 、 叹 词 


if tag[0]=="N" or tag[0]=="A" or tag[0]=="Y" or tag[O]=="E": 
cutstr+=word+" " 
print cutstr 
tokendocstr.append(nltk.word_tokenize(cutstr) ) 
for docstr in tokendocstr: 
for w in docstr: 
allw.append(w) 
allw=set (allw) 
samplefeatures=[] 
for docstr in tokendocstr: 
allwdt=inittxtw(allw) 
docfeature=numpy.array(txtfeatures(allwdt, docstr) ) 
samplefeatures.append(docfeature) 
#GAAC 聚 类 


print u"---------------- GAAC 聚 类 


txtclassfier=nltk.cluster.gaac.GAAClusterer(num_clusters=5, normalise=True) 
txtclassfier.cluster(vectors=samplefeatures) 
i=0 
for data in samplefeatures: 
print urls[i] [0], "3245 


print txtclassfier.classify(data) 


i+=1 
#kmeans 聚 类 
print u"------------- kmeans 聚 类 


txtclassfier=nltk.cluster.kmeans.KMeansClusterer(num_means=5, distance=nltk.cluster.util.euclidea 
txtclassfier.cluster(samplefeatures) 
i=0 
for data in samplefeatures: 
print urls[i][0], "2245 


print txtclassfier.classify(data) 
i+=1 





程序 12-19.py 中 有 以 下 关键 知识 点 。 
(1) 文本 特征 提取 
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通过 提取 重点 词 在 文本 中 出 现 的 数量 作为 该 文本 的 特征 ， 代 码 如 下 所 示 : 


def txtfeatures(allwdt, tokenw): 
# 词 频 特 征 提取 





txtfd=nltk.FreqDist(tokenw) 


for key,val in sorted(txtfd.iteritems()) 
allwdt [key]=val 


return allwdt.values() 





(2) 重点 词 筛选 


表示 名 词 ，A 表 示 形 容 词 ，Y 表 示 语 气 词 ，E 表 示 叹 词 ， 将 这 4 类 词 筛选 出 来 作为 评 
论 的 重点 词 ， 参 与 文本 特征 提取 计算 。 代 码 如 下 所 示 : 


for word,tag in strtag: 
# 只 处 理 名 词 、 形 容 词 、 语 气 词 、 叹 词 

















if tag[0]=="N" or tag[0]==" A" or tag[0]=="Y" or tag[0]=="E" 
cutstr+=word+ 








(3) GAA 算 法 


群 平 均 聚 类 ， 简 称 GAA_〈The Group Average Agglomerative) ， a 心思 想 是 : 开始 以 
每 一 个 癌 量 作为 单个 群 ， 然 后 迭代 ， 将 最 近 的 质心 的 集 全 部 成 群 一 过 程 持 持续 到 仪 有 
个 群 ， 这 种 合并 产生 了 树 状 图 。 纵 观 这 一 过 程 可 以 看 出 ， CRADLE Bakke 方法 ， 
它 的 基本 步骤 如 下 : 





1) 将 每 个 对 象 归 为 一 类 ， 共 得 到 N 类 ， 每 类 仅 包含 一 个 对 象 。 类 与 类 之 间 的 距离 就 
是 它们 所 包含 的 对 象 之 间 的 距离 。 

2) 找到 最 接近 的 两 个 类 并 合并 成 一 个 类 ， 于 是 类 的 总 数 少 了 一 个 。 

3) 重新 计算 新 的 类 与 所 有 旧 类 之 间 的 距离 。 

ee ee 个 类 为 止 〈 此 类 包含 了 N 个 对 象 ) 。 

BRAT 


EEI GAAN 〈 如 图 12-10 所 示 ) 。 关 键 是 如 何 判 断 两 个 类 之 间 
的 相似 度 ， See Me 一 般 使 用 余弦 距离 来 判断 相似 性 。 
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图 12-10 GAA 
使 用 NLTK 进 行 GAA 的 过 程 一 般 如 下 : 


1) 通过 nltk.cluster.gaac 的 GAAClusterer 函 数 构造 GAA 对 象 ， 其 中 normalise 参 数 为 
True 时 表示 使 用 余弦 相似 度 。 代 码 如 下 所 示 : 





txtclassfier=nltk.cluster.gaac.GAAClusterer(num_clusters=5, normalise=True) 





2) 以 聚 类 样本 为 参数 调用 cluster 函 数 进行 聚 类 。 代 码 如 下 所 示 : 





txtclassfier.cluster(vectors=samplefeatures) 





3) 通过 classify 函 数 返 回 聚 类 结果 。 代 码 如 下 所 示 ; 





print txtclassfier.classify(data) 





(4) K 均 值 算法 


SR 是 求 对 应 茶 一 初始 聚 类 中 心 同 量 V 的 最 
优 分 类 ， 使 得 评价 指标 J 最 小 。 算 法 采用 BOE Ey RIED RACE RREK BUY 
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两 个 对 象 的 距离 越 近 ， 其 相似 度 就 越 大 ， 因 此 算法 把 产生 紧凑 有 旦 独立 的 簇 作为 最 终 目标 。 


该 算法 在 每 次 迁 代 中 对 数据 集中 剩余 的 每 个 对 象 ， 根 据 其 与 各 个 钱 中 心 的 距离 将 每 
个 对 象 重新 赋 给 最 近 的 簇 。 当 考察 完 所 有 的 数据 对 象 后 ， 一 次 欠 代 运算 完成 ， 新 的 聚 类 中 
心 被 计算 出 来 。 如 果 在 一 次 选 代 前 后 ， 评 价 指标 J 的 值 没有 发 生变 化 ， 就 说 明 算法 已 经 收 


Bo 





算法 的 具体 过 程 如 下 : 

1) 从 N 个 文档 随机 选取 K 个 文档 作为 质心 。 

2) 对 剩余 的 每 个 文档 测量 其 到 每 个 质心 的 距离 ， 并 把 它 归 到 最 近 的 质心 的 类 。 
3) 重新 计算 已 经 得 到 的 各 个 类 的 质心 。 

4) 迭代 第 2 步 和 第 3 步 直 至 新 的 质心 与 原 质心 相等 或 小 于 指定 闵 值 ， 算 法 结束 。 
使 用 NLTK 进 行 K 均 值 算法 的 过 程 一 般 如 下 : 


oe 1) 通过 nltk.cluster.kmeans 的 KMeansClusterer 函 数 构 造 K 均 值 聚 类 器 对 象 。 代 码 如 下 
Z: 











txtclassfier=nltk.cluster.kmeans.kKMeansClusterer(num_means=5, distance=nltk.cluster.util.euclidea 





2) RRA AB BU HY cluster MET A. AGU Rtas: 





txtclassfier.cluster(vectors=samplefeatures) 





3) 通过 classify 函 数 返 回 聚 类 结果 。 代 码 如 下 所 示 : 





print txtclassfier.classify(data) 





2. 关 键 词 聚 类 


程序 12-20.py 演 示 了 如 何 使 用 NLITK， 通 过 电影 评论 对 电 景 eur mere ae 
同 的 是 ， 本 例 聚 类 的 依据 是 关键 词 ， td 
的 前 30 个 词 作为 关键 词 。 代 码 如 下 所 示 : 








#--coding:utf-8-- 
#code by myhaspl 
#12-20.py 
from __future__ import unicode_literals 
from __future__ import division 
import pylab 
import nltk 
import urllib 
import numpy 
import re 
import sys 
import jieba.analyse 
sys.path.append("../") 
pylab.mpl.rcParams['font.sans-serif']=['SimHei'] 
from jieba import posseg 
def cutstrpos(txt): 
# 分 词 


+ 词性 


cutstr = posseg.cut(txt) 
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result="" 


for word, flag in cutstr: 
result+=word+"/"+flag+' ' 
return result 
def inittxtw(allwords): 
txtwords={} 
for w in allwords: 
txtwords[w]=0 
return txtwords 
def txtfeatures(allwdt, tokenw): 


# 统 计 词 频数 


txtfd=nltk.FreqDist(tokenw) 

for key,val in sorted(txtfd.iteritems()) 
allwdt [key]=val 

return allwdt.values() 


# 根 据 电 影评 论 将 电影 聚 类 








urls=[(u" 功 夫 熊 猫 


3","http://ent.163.com/16/0129/00/BEF5L97PO0034R77.html"),(u" 唐 人 街 探 案 


" "http://ent.163.com/15/1230/15/BC3GSVQ700034R77.html" )，(Uu" 恶 棍 天 使 


", "http://ent.163.com/15/1224/07/BBJ60V1HO0034R77.html"), (u" 老 炮 儿 


","http://ent .163.com/15/1224/00/BBIED1QL00034R77 .htm1"), (u" 寻 龙 决 


", "http://ent.163.com/15/1218/03/BB3A3I2B00034R77.html"),(u" 万 万 没 想到 


", "http://ent.163.com/15/1218/03/BB3ACSP700034R77.html"),(u" 星 球 大 战 


7","http://ent .163.com/15/1217/15/BB21INTGO0034R77 . html"), (u" RIFI 


3 CP) 


" "http://ent. 


" "http://ent. 


" "http://ent. 


" "http://ent. 


" "http://ent. 


" "http://ent. 


" "http://ent. 
allw=[] 
tokendocstr=[] 
i=0 
errorfilm=[] 


163. 


163. 


163. 


163. 


163. 


163. 


163. 


com/15/1120/07/B8RKKR9CO00034R77. 


com/15/0930/01/B4NN919N00034R77 


com/15/0508/06/AP2T6CP400034R77. 


com/15/0702/17/ATHL56DT00034R77. 


com/15/0925/05/B4BA61 J600034R77 


com/15/1113/08/B89PJSGE00034R77. 


com/15/0913/07/B3C1689C00034R77 


for (film,myurl) in urls: 
print WA Ate ERS RR REAR ER ER « 


"+film+"》 关 键 词 
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html"), (u" ERI 


.htm1" ), (u" 超 能 查 派 


html"), (u" fier A 





html"), (ua 


html"), (u"@07: 幽灵 党 


html"), (uM Ait A KIRI 


html") J 


Arete 

















需 需 宣讲 二 次 守 者 记 二 二 家 坟 关 办 汕 才 二 二 二 妆 遍 时 


htmlsrc=urllib.urlopen(myur1).read() 
htmlsrc=htmlsrc.decode('gbk') 
pattern=re.compile(r'((class="end-text">)|(<br /></p><p>))(.*<style>.*--></p>)*(.+?) (</p> 
</div>|<div id=)') 

match = pattern.findall(repr(htmlsrc) ) 

matchstr="" 

if match: 
mstr=match[0][4].encode('utf-8').decode("unicode-escape" ) 
matchstrt+=mstr 

else: 
print film," 无 法 取得 评论 


errorfilm.append(i) 
i+=1 
txtstr=matchstr.replace("</p>","").replace("<p>","").replace("<span>","").replace(" 
</span>","").replace(r'<b>','').replace(r'</b>','') 
# 提 取 前 


30 位 


TF/IDF 权 重 最 大 的 关键 词 


topK = 30 
tags = jieba.analyse.extract_tags(txtstr, topK=topK) 
cutstr=" ".join(tags) 


print cutstr 
tokendocstr.append(nltk.word_tokenize(cutstr) ) 
for docstr in tokendocstr: 
for w in docstr: 
allw.append(w) 
allw=set (allw) 
samplefeatures=[] 
for docstr in tokendocstr: 
allwdt=inittxtw(allw) 
docfeature=numpy.array(txtfeatures(allwdt, docstr) ) 
samplefeatures.append(docfeature) 


#GAAC 聚 类 
print u"---------------- GAAC 聚 类 


txtclassfier=nltk.cluster.gaac.GAAClusterer(num_clusters=5, normalise=True) 
txtclassfier.cluster(vectors=samplefeatures) 
i=0 
for data in samplefeatures: 
print urls[i][0], "#4 


print txtclassfier.classify(data) 


i+=1 
#kmeans 聚 类 
print u"------------- kmeans 聚 类 


txtclassfier=nltk.cluster.kmeans.KMeansClusterer(num_means=5, distance=nltk.cluster.util.euclidea 
txtclassfier.cluster(samplefeatures) 
i=0 
for data in samplefeatures: 
print urls[i][0], "22405 
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print txtclassfier.classify(data) 





程序 12-20.py 的 核心 在 于 提取 关键 词 ， 本 例 基于 TFIDF 权 重 ， 即 : 取 TF/IDF 权 重 最 高 
的 前 30 个 词 作为 天 键 词 。 


_TF-IDF 是 一 种 统计 方法 ， 用 以 评估 某 一 字 词 对 于 一 个 文件 集 或 一 个 语料库 中 的 某 一 
份 文件 的 重要 程度 。 字 词 的 重要 性 随 着 它 在 文件 中 出 现 的 次 数 成 正比 增加 ， 但 同时 会 随 着 
它 在 语料库 中 出 现 的 频率 成 反比 下 降 。TF 指 词 频 (Term Frequency) ，IDF 指 逆向 文 
率 (Inverse Document Frequency) 。TF 的 意义 在 于 可 Seri Rtgs Rd 出 现 的 频率 ， 
IDF 的 意义 在 于 如 果 包 含 词 条 t 的 文档 越 少 ， 也 就 是 n 越 小 ，IDF 越 大 ， 则 说 明 词 条 t 具 有 很 
好 的 类 别 区 分 能 力 。 


下 面 的 代码 片断 通过 调用 jieba 分 词组 件 的 analyse.extract_tags 方 法 来 分 析 TF/IDF 权 











KE 














# 提 取 前 


30 位 


TF/IDF 权 重 最 大 的 关键 词 


topk = 30 
tags = jieba.analyse.extract_tags(txtstr, topK=topK) 
cutstr=" ".join(tags) - 


print cutstr 
tokendocstr.append(nltk.word_tokenize(cutstr) ) 














程序 12-20.py 首 先 输出 各 部 电影 评论 的 关键 词 ， 然 后 箱 出 电影 的 聚 类 结果 ， 聚 类 编号 
相同 者 为 观众 心目 中 的 同一 类 型 电影 。 运 行 结 果 如 下 : 





六 业 大 大大 大大 类 类 广大 大 太太 《功夫 能 猫 


3》 关 键 词 


KREKKKKKKKKKKE KKK GE KH 
熊猫 


功夫 


阿 宝 
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nm 
it 
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mr 


没有 








唐人 街 探 案 


聚 类 编号 ; 
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sya wie aa Sele kmeans #2 


es 功夫 熊猫 





D 





唐人 街 探 案 


聚 类 编号 : 
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12.5 ”小 结 


现在 已 经 是 数字 时 代 了 ， 可 获得 的 和 需要 处 理 的 文本 数量 越 来 越 多 ， Be 
fi 点 ， 这 对 文本 数据 的 分 类 与 自然 语言 的 处 理 提出 了 更 





au 





` 



































本 章 首先 介绍 于 余弦 相似 度 ， a ar ae 的 文本 分 类 及 Web 文 档 分 关 技 
A, FFP Ah EA as 理 技 术 〔 中 文 分 jute oe 文本 特征 提取 技术 等 内 
容 。 然 后 阐述 Ue ARINC Beth RE CURIE 言 处 理 的 技术 ， ,包括 分 词 与 词性 标注 、 
词汇 特征 指标 、Web 文 档 分 析 、Web 文 档 分 类 及 RK, 文本 语法 结构 分 析 等 内 容 。 
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思考 题 


(1) 基于 余弦 相似 度 算法 对 新 闻 网 页 进行 分 类 ， 观 察 其 效果 。 
(2) 基于 SVM 算法 对 新 闻 网 页 进行 分 类 ， 观 察 其 效果 。 


Q 提示 ”文本 样本 的 特征 组 可 以 定义 为 其 包含 的 词 条 在 茶 类 别 中 出 现 的 先 验 概 


(3) 基于 加 权 朴素 贝 叶 


H 














斯 算法 对 新 闻 网 页 进行 分 类 ， 观 察 其 效果 。 





提示 。” 可 以 以 新 闻 的 标题 为 关键 句 ， 将 标题 中 包含 的 词 赋 予 较 大 的 权重 ， 将 





权重 直接 乘 以 先 验 概 率 作为 标题 词 条 的 先 验 概率 。 
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